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内 容 提要 


Python 语言 是 一 种 脚本 语言 ， 其 应 用 领域 非常 广泛 ， 包 括 数据 分 析 、 自 然 语言 处 理 、 
机 器 学 习 、 科 学 计算 、 推 荐 系统 构建 等 。 


本 书 共有 12 章 ， 围 绕 如 何 进 行 代码 优化 和 加 快 实际 应 用 的 运行 速度 进行 详细 讲解 。 本 
书 主要 包含 以 下 主题 : 计算 机 内 部 结构 的 背景 知识 、 列 表 和 元 组 、 字 典 和 集合 、 送 代 
器 和 生成 器 、 符 阵 和 矢量 计算 、 并 发 、 集 群 和 工作 队列 等 。 最 后 ， 通 过 一 系列 真实 案 
例 展 现 了 在 应 用 场景 中 需要 注意 的 问题 。 


本 书 适合 初级 和 中 级 Python 程序 员 、 有 一 定 Python 语言 基础 想 要 得 到 进 阶 和 提高 的 读 
者 阅读 。 
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Python 很 容易 学 。 你 之 所 以 阅读 本 书 可 能 是 











因为 你 的 代码 现在 能 够 J 





mb 


| 


了 路 





E 确 运行 ， 而 你 希 








望 它 能 


跑 得 更 快 。 你 可 以 竹 

















轻松 地 修改 代码 ， 反 复 地 实现 你 的 想法 ， 














你 对 这 一 点 





等 


意 。 但 户 饮 帮 区 笑 驱 和 所 到 多 麻 钨 大 之 间 的 取舍 却 是 一 个 世人 和 皆 知 且 令 人 忆 惜 的 现象 。 


而 这 个 问题 其 实 是 可 以 解决 





的 
中 
HJo 





有 些 人 想 要 让 顺序 执行 的 过 程 忠 得 更 快 。 有 些 人 需要 利用 多 核 架构 、 集 群 ， 或 者 图 形 


处 理 单元 的 优势 来 解决 他 们 
情 或 根据 资金 多 少 处 理 更 多 或 更 少 的 了 
9 其 他 语言 ， 可 
我 们 会 在 本 书 中 覆盖 所 有 这 些 主题 ， 给 出 明智 的 指导 去 了 解 瓶颈 
缩 性 更 好 的 解决 方案 。 我 们 也 会 在 本 书 中 包含 那些 来 E 























免 重 蹈 覆 输 。 
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能 不 如 别人 的 自然 。 











问题 。 有 些 人 需要 可 伸缩 系统 在 保证 可 靠 性 的 前 提 下 酌 
[ 作 。 有 些 人 意识 到 他 们 的 编程 技巧 ， 通 常 是 来 












































f 提 
前 人 的 战场 故事 ， 让 你 可 以 避 


效率 更 高 、 伸 





I 
[| 





Python 很 适合 快速 开发 、 生 产 环境 部 署 ， 以 及 可 伸缩 系统 。Python 的 生态 系统 里 到 处 














都 是 帮 你 解决 1 











本 书 适合 哪些 人 


你 使 用 Python 的 时 间 已 经 足够 长 ， 了 解 为 什么 某 些 代码 会 跑 得 慢 ， 
的 Cython、numpy 以 及 PyPy 等 技术 作为 解决 方案 。 你 可 能 还 有 其 他 语言 的 
因此 知道 解决 性 能 问题 的 路 不 止 一 条 。 


本 书 主要 的 目标 读者 是 那些 需要 解决 CPU 密集 型 问题 的 人 , 同 


= 





! 缩 性 的 人 ， 让 你 有 更 多 时 间 处 理 那 些 更 有 挑战 性 的 工作 。 





也 见 过 以 本 书 讨论 



































程 经 验 ， 





时 我 们 也 会 关注 数据 











传输 以 及 内 存 密集 型 问题 。 科 学 家 、 工 程 师 、 数 据 分 析 专 家 、 学 者 通常 会 面临 这 些 


问题 oo 




















我 们 还 会 关注 





网 页 开发 者 可 能 面临 的 问题 ， 包 括 数据 的 移动 以 及 为 了 快 i 


使 用 PyPy 这 样 的 即时 (JIT) 编译 器 。 


如 
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最 常用 的 解释 器 (CPython 





果 你 有 一 个 C (或 Ct+, 或 Java) 的 


























无 所 知 的 人 也 能 使 用 的 许多 其 他 技术 。 








背景 可 能 会 有 帮助 ， 但 这 不 是 必须 的 。Python 
你 在 命令 行 输入 Python 时 启动 的 标准 解释 器 ) 是 用 C 


写 的， 所 以 各 种 钩子 和 库 全 都 血淋淋 地 暴露 了 内 部 的 C 机 制 。 但 我 们 也 会 谈 到 对 C 一 
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你 可 能 还 


























必须 的 。 
本 书 不 适合 哪些 人 


本 书 适 月 








具有 坚实 的 Python 基础 。 

我 们 不 会 探讨 存储 系统 优化 。 如 果 你 有 一 个 SQL 或 NoSQL 瓶颈， 本 书 可 能 
你 会 学 到 什么 

我 们 两 位 作者 在 业界 和 学 术 界 工作 了 很 多 年 ， 专 门 应 对 大 数据 应 用 、 处 理 我 需要 更 侈 
和 像 到 各 笑 / 之 类 的 请 求 、 可 伸缩 架构 等 需求 。 我 们 会 将 自己 经 历 千 辛 万 兰 获 得 的 经 验 


传授 于 你 ， 让 你 免 于 重 踪 覆 略 。 


4 有 CPU、 内 存 架构 和 数据 总 线 的 底层 知识 ， 还 是 那 句 话 ， 这 些 也 不 完全 是 





于 中 高 级 Python 程序 员 。 积极 的 Python 初学 者 可 能 可 以 跟 上 , 但 我 们 建议 要 



































ng 





在 每 一 章 开 头 ， 我 们 会 列 出 问题 ， 并 在 后 续 的 文字 中 回答 (如 果 没 有 回答 ， 
我 们 会 在 下 一 个 版 本 中 修正 !)。 


我 们 会 覆盖 下 面 这 些 主题 : 























计算 机 内 部 结构 的 背景 知识 ， 让 你 知道 在 底层 发 生 了 什么 。 
列表 和 元 组 一 一 在 这 些 基 本 数据 结构 中 细微 的 语义 和 速度 区 别 。 
字典 和 集合 一 一 在 这 些 重要 数据 结构 中 的 内 存 分 配 策略 和 访问 算法 。 

















Ef 

















帮 不 了 你 。 


告诉 我 们 ， 


迭代 器 一 一 Python 风格 的 代码 应 该 怎样 写 ， 用 迭代 打开 无 限 数据 流 的 大 门 。 








纯 Python 方法 一 一 如 何 高 效 使 用 Python 及 其 模块 。 
使 用 numpy 的 矩阵 一 一 像 一 头 野兽 一 样 使 用 心爱 的 numpy 库 。 








编译 和 即时 计算 一 一 编译 成 机 器 码 可 以 跑 得 更 快 ， 让 性 能 分 析 的 结果 指引 你 。 








并 发 一 一 高 效 移动 数据 的 方法 。 











multiprocessing 一 一 使 用 内 建 multiprocessing 库 进 行 并 行 计 算 的 各 种 方 





式 ， 高 效 共享 numpy 和 矩阵、 进程 间 通 信 (IPC) 的 代价 和 收益 。 


集群 计算 一 一 将 你 的 multiprocessing 代码 转换 成 在 研究 系统 以 及 4 
本 地 集群 或 远程 集群 上 运行 的 代码 。 


使 用 更 少 的 RAM 一 一 不 需要 购买 大 型 机 就 能 解决 大 型 问题 的 方法 。 
现场 教训 一 一 来 自前 人 的 战场 故事 ， 让 你 可 以 避免 重 蹈 覆 往 。 















































E 产 系统 的 
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Python 2.7 


Python 2.7 在 科学 和 工程 计算 中 是 占 主 导 地 位 的 Python 版 本 。 在 *nix 环境 (通常 是 Linux 

















或 Mac) 下 ,64 位 的 版 本 占 了 主导 地 位 。64 位 让 你 能 够 拥有 更 宽广 的 RAM 寻 址 范围 。 





























*nix 让 你 构建 出 的 应 用 程序 的 行为 、 部 署 和 配置 方法 都 可 以 很 容易 地 被 别人 所 理解 。 





























如 果 你 是 一 个 Windows 用 户 ， 那 么 你 就 要 系 好 安全 带 了 。 我 们 展示 的 大 多 数 代码 都 可 
以 正常 工作 ， 但 有 些 东 西 是 针对 特定 操作 系统 的 ， 你 将 不 得 不 研究 Windows 下 的 解决 
方案 。Windows 用 户 可 能 面临 的 最 大 的 困难 是 模块 的 安装 : 搜索 StackOverflow 等 站 点 
应 该 可 以 帮助 你 找到 你 需要 的 答案 。 如 果 你 正在 使 用 Windows， 那 么 使 用 一 台 安 装 了 
Linux 的 虚拟 机 (比如 VirtualBox) 可 能 可 以 帮助 你 更 自由 地 进行 实验 。 


Windows 用 户 绝 对 应 该 看 看 那些 通过 Anaconda、Canopy、Python(x,y) 或 Sage 等 Python 






































发 行 版 提供 的 打包 的 解决 方案 。 这些 发 
迁移 至 Python 3 












































行 版 也 会 让 Linux 和 Mac 用 户 的 生活 简单 许多 。 

















Python 3 是 Python 的 未 来 ， 每 一 个 人 都 在 迁移 过 去 。 尽 管 Python 2.7 还 将 在 接 下 来 的 


























期 已 经 被 定 在 2020 年 了 。 





























很 多 年 里 面 继 续 跟 我 们 做 伴 (有 些 安装 版 仍 在 使 用 2004 年 的 Python 2.4)， 它 的 退役 日 


升级 到 Python 3.3+ 让 Python 库 的 开发 者 伤 透 了 脑筋 ， 人 们 移植 代码 的 速度 一 直 都 很 慢 























(这 是 有 原因 的 ) ， 所 以 人 们 转 用 Python 3 的 速度 也 很 慢 。 这 主要 是 因为 要 把 一 个 混用 
了 Python 2 的 string 和 Unicode 数据 类 型 的 应 用 程序 切换 成 Python 3 的 Unicode 和 byte 





实在 太 过 复杂 了 。 























通常 来 说 ， 当 你 需要 重 现 基于 一 批 值得 信任 的 库 的 结果 时 ， 你 不 会 想 要 站 在 危险 的 技 





术 前 沿 。 高 性 能 Python 的 开发 者 更 有 可 能 在 接 下 来 的 几 年 里 使 用 和 信任 Python 2.7。 


本 书 的 大 多 数 代码 只 需要 稍 做 修改 就 能 运行 于 Python 3.3+ (最 明显 的 修改 是 print 从 
一 个 语句 变 成 了 一 个 函数 ) ,在 一 些 地 方 , 我 们 将 特地 关注 Python 3.3+ 带 来 的 性 能 提升 。 
一 个 可 能 需要 你 关注 的 地 方 是 在 Python 2.7 中 / 表示 integer 的 除法 ， 而 在 Python 3 中 
它 变 成 了 jioat 的 除法 。 当 然 ， 作 为 一 个 好 的 开发 者 ， 你 精心 编写 的 单元 测试 应 该 已 经 









































在 测试 你 的 关键 代码 路 和 了， 所 以 如 曙 


你 的 代码 需要 关注 这 点 ， 那 么 你 应 该 已 经 收 到 








来 自 你 单元 测试 的 警告 








scipy 和 numpy 从 2010 年 开始 就 已 经 兼容 Python 3 了 。matplot1ib 从 2012 年 开 
始 兼 容 ，scikit-learn 是 2013，NLTK 是 2014，Django 是 2013。 这 些 库 的 迁移 备 
忘 录 可 以 在 它们 各 自 的 代码 库 和 新 闻 组 里 查看 。 如 果 你 也 有 旧 代 码 需 要 移植 到 Python 















































3， 那 么 就 值得 回顾 一 下 这 些 库 移 植 的 





过 程 。 
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我 们 鼓励 你 用 Python 3.3+ 进 行 新 项 目的 开发 ， 但 你 要 当心 那些 最 近 刚 刚 移植 还 没有 多 
少 用 户 的 库 一 一 追踪 bug 将 会 更 困难 。 比 较 明 智 的 做 法 是 让 你 的 代码 可 以 兼容 Python 
3.3+ (学 习 一 下 _future 模块 的 导入 )， 这 样 未 来 的 升级 就 会 更 简单 。 


有 两 本 参考 手册 不 错 :《 把 Python 2 的 代码 移植 到 Python 3》 和 《移植 到 Python 3: 深度 
剖 南 》。Anaconda 或 Canopy 这 样 的 发 行 版 让 你 可 以 同时 运行 Python 2 和 Python 3 一 一 这 

会 让 你 的 移植 变 得 简单 一 些 。 

版 权 声明 

本 书 版 权 符 合 知识 共享 协议 “署名 - 非 商 业 性 使 用 -禁止 演绎 3.0”。 

欢迎 以 非 商 业 性 目的 使 用 本 书 ， 包 括 非 商业 性 教育 。 本 书 许可 完整 转载 ， 如 果 你 需 

要 部 分 转载 ， 请 联系 O'Reilly ( 见 后 面 “联系 我 们 ”部 分 )。 请 根据 下 面 的 提示 进行 

署名 。 

我 们 经 过 协商 认为 本 书 应 该 使 用 知识 共享 许可 证 ， 让 其 内 容 在 世界 上 更 广泛 传播 。 如 

果 这 个 决定 帮 到 了 你 ， 我 们 将 十 分 高 兴 收 到 你 的 啤酒 。 我 们 估计 O’Reilly 的 员工 对 啤 

酒 的 看 法 跟 我 们 相同 。 

如 何 引用 


如 果 你 需要 使 用 本 书 ， 知 识 共 享 许可 证 要 求 你 署名 。 署 名 意味 着 你 需要 写 一 些 东 西 让 
其 他 人 能 够 找到 本 书 。 下 面 是 一 个 不 错 的 例子 :“High Performance Python by Micha 
Gorelick and Ian Ozsvald (O’Reilly). Copyright 2014 Micha Gorelick and Ian Ozsvald, 
978-1-449-36159-4.” 


勘误 和 反馈 


我 们 鼓励 你 在 Amazon 这 样 的 公开 网 站 上 评论 本 书 一 一 请 帮助 其 他 人 了 人 解 他 们 是 否 能 
从 本 书 中 受益 ! 你 也 可 以 发 E-mail 给 我 们 : feedback@highperformancepython.com 。 


我 们 特别 希望 听 到 您 指出 本 书 的 错误 ， 本 书 帮 到 你 的 成 功 案例 ， 以 及 我 们 应 该 在 下 一 
版 本 加 上 的 高 性 能 技术 。 你 可 以 通过 OReilly 官网 给 我 们 留言 。 


至 于 抱怨 ， 欢 迎 你 使 用 即时 抱怨 传输 服务 > /dev/nul1。 
排版 约定 

本 书 采 用 下 列 排版 约定 : 

YK 

表示 新 词 、B-mail 地 址 、 文 件 名 ， 以 及 文件 扩展 名 。 
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等 
用 于 程序 列 印 ， 以 及 在 文字 中 表示 命令 、 模 块 和 程序 元 素 ， 如 变量 或 函数 名 、 数 据 库 、 
数据 类 型 、 环 境 变量 、 语 句 和 关键 字 。 

等 宽 加 粗 

表示 命令 或 其 他 需要 用 户 原 封 不 动 输入 的 文字 。 

多 第 们 从 

示 需 要 被 替换 成 用 户 指定 的 值 或 根据 上 下 文 决定 的 值 。 
问题 


这 个 记号 表示 一 个 问题 或 练习 。 


博 














i 



































备 忘 


这 个 记号 表示 一 个 备 忘 . 


使 用 示例 代码 
补充 材料 〈 示 例 代码 、 练 习 等 ) 可 以 通过 GitHub 下 载 。 























本 书 是 为 了 帮 你 搞定 你 的 问题 。 通 常 来 说 ， 只 要 是 本 书 提供 的 示例 代码 ， 你 就 可 以 在 
你 的 程序 和 文档 中 使 用 。 你 不 需要 联系 我 们 获得 许可 ， 除 非 你 需要 对 很 大 一 部 分 代码 
进行 转载 。 比 如 ， 写 一 个 使 用 了 好 几 段 本 书 代码 的 程序 不 需要 许可 。 以 CD-ROM 的 形 
式 销售 或 分 发 OReilly 图 书 中 的 示例 需要 许可 。 引 用 本 书 文字 和 示例 代码 回答 问题 不 
需要 许可 。 在 你 的 产品 文档 中 合并 大 量 本 书 示例 代码 需要 许可 。 

如 果 你 觉得 你 对 示例 代码 的 使 用 超出 了 上 述 的 许可 范围 ， 请 通过 permissions@oreilycom 
联系 我 们 。 
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Safari2 在 线 图 书 

。” Safari 无 绕 厅 为 是 一 个 应 需 数字 图 书馆 ， 它 以 书 和 视频 
4 Cafari | 的 形式 提供 来 自 全 球 硕 尖 作 者 的 技术 和 商业 内 容 。 

技术 专家 、 软 件 开发 者 、 网 页 设计 者 ， 以 及 商业 和 创新 

人 员 将 Safari 在 线 图 书 当 成 他 们 研究 、 解 决 问题 、 学 习 和 资格 认证 训练 的 主要 资源 。 
Safari 在 线 图 书 为 企业 ， 政 府 ， 教 育 和 个 人 提供 了 各 种 收费 标准 。 
其 成 员 可 以 通过 全 文 搜索 数据 库 访问 成 千 上 万 的 图 书 ， 训 练 视频 ， 以 及 还 未 正式 出 版 的 
FF 稿 。 它 们 来 自 O'Reilly Media、Prentice Hall Professional、Addison-Wesley Professional、 
Microsoft Press、Sams、Que、Peachpit Press、Focal Press、Cisco Press、John Wiley & Sons、 
Syngress、 Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FT Press、Apress、 
Manning、New Riders、McGraw-Hill、Jones & Bartlett、Course Technology， 以 及 其 他 几 
百 个 出 版 社 。 更 多 信息 请 在 线 访问 https:/www.safaribooksonline.comy。 


联系 我 们 
请 将 关于 本 书 的 评论 和 问题 发 给 本 书 出 版 社 : 
O’Reilly Media, Inc. 



























































y 





出 











1005 Gravenstein Highway North 

Sebastopol, CA 95472 

800-998-9938 (in the United States or Canada) 

707-829-0515 (international or local) 

707-829-0104 (fax) 

你 也 可 以 发 送 E-mail 到 bookquestions@oreilly.com 对 本 书 进 行 评论 或 询问 技术 问题 。 
关于 我 们 的 图 书 、 课 程 、 会 议和 新 闻 等 更 多 信息 请 访问 我 们 的 网 站 。 

我 们 的 Facebook: http://facebook.com/oreilly 

















Twitter: http://twitter.com/oreillymedia 

YouTube: http:/www.youtube.com/oreillymedia 

致谢 

感谢 来 自 Jake Vanderplas、Brian Granger、Dan Foreman-Mackey、Kyran Dale、John 
Montgomery、 Jamie Matthews、 Calvin Giles、 William Winter、 Christian Schou Oxvig、 
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第 1 章 





理解 高 性 能 Python 


读 完 本 章 之 后 你 将 能 够 回答 下 列 问 题 
。 ”计算 机 架构 有 哪些 元 素 ? 
。 常见 的 计算 机 架构 有 哪些 ? 

















e。 计算 机 架构 在 Python 中 的 抽象 表达 是 什么 ? 





。 ”实现 高 性 能 Python 代码 的 障碍 在 哪里 ? 


。 ”性 能 问题 有 哪些 种 类 ? 














计算 机 编程 可 以 被 认为 是 以 特定 的 方式 进行 数据 的 移动 和 转换 来 得 到 某 种 结果 。 然 





而 这 些 操作 有 时 间 上 的 开销 。 因 此 ， 高 性 能 乡 























ij 程 可 以 被 认为 是 通过 降低 开销 (比如 


撰写 更 高 效 的 代码 ) 或 改变 操作 方式 (比如 寻找 一 种 更 合适 的 算法 ) 来 让 这 些 操作 


的 代价 最 小 化 。 


数据 的 移动 发 生 在 实际 的 硬件 上 , 我 们 可 以 通过 降低 代码 开销 的 方式 来 了 解 更 多 硬 
件 方面 的 细节 。 这 样 的 练习 看 上 去 可 能 没什么 用 ， 因 为 Python 





们 对 硬件 的 直接 操作 抽象 出 来 。 然 而 ， 通 过 理解 数据 在 硬件 层 症 





履 了 很 多 工作 将 我 














i 的 移动 方式 以 及 





Python 在 抽象 层面 移动 数据 的 方式 , 你 会 学 到 一 些 编写 高 性 能 Python 程序 的 知识 。 














1.1 基本 的 计算 机 系统 

















一 台 计 算 机 的 底层 组 件 可 被 分 为 三 大 基本 部 分 : 计算 9 























元 ， 存 储 单元 ， 以 及 两 者 之 


间 的 连接 。 除 此 之 外 ,这 些 单元 还 具有 多 种 属性 帮助 我 们 了 解 它们 。 计 算 单元 有 一 









































个 属性 告诉 我 们 它 每 秒 能 够 进行 多 少 次 计算 , 存储 单元 有 一 个 属性 告诉 我 们 它 能 
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存 多 少数 据 , 还 有 一 个 属性 告诉 我 们 能 以 多 快 的 速度 对 它 进行 读 写 , 而 连接 则 有 一 
个 属性 告诉 我 们 它们 能 以 多 快 的 速度 将 数据 从 一 个 地 方 移动 到 另 一 个 地 方 。 


通过 这 些 基本 单元 ， 我 们 就 可 以 在 各 种 不 同 的 复杂 度 级 别 上 描述 一 个 标准 工作 站 。 
例如 , 一 个 标准 工作 站 可 以 被 看 作 是 具有 一 个 中 央 处 理 单元 (CPU) 作为 其 计算 单 
元 ， 两 个 独立 的 存储 单元 ， 分 别 是 随机 访问 内 存 (RAM) 和 硬盘 (各 自 有 不 同 的 
容量 和 读 写 速度 )， 最 后 还 有 一 个 总 线 将 所 有 这 些 连接 在 一 起 。 然 而 ， 我 们 还 可 以 
深入 CPU 并 发 现 其 内 部 也 有 多 个 存储 单元 : L1、L2， 有 时 其 至 有 1L3 和 1L4 缓存 ， 
它们 的 容量 较 小 (从 几 KB 到 十 几 MB) 但 速度 非常 快 。 这 些 额 外 的 存储 单元 通过 
一 个 被 称 为 后 党 总 绕 的 特殊 总 线 连接 CPU。 另 外 ， 新 的 计算 机 架构 通常 会 有 新 的 
CL 置 (比如 Intel 的 Nehalem 架构 的 CPU 用 英特尔 快速 通道 互联 技术 替换 了 前 端 总 
线 并 重新 构建 了 很 多 连接 )。 最 后 , 在 上 述 案例 的 讨论 中 , 我们 还 忽略 了 网 络 连接 ， 
这 是 一 种 慢 速 的 连接 ， 用 于 连接 其 他 许多 潜在 的 计算 单元 和 存储 单元 。 


为 了 帮助 理 清 这 些 错综复杂 的 结构 ， 让 我 们 去 浏览 一 下 这 些 基本 单元 的 简要 描述 。 


1.1.1 计算 单元 
一 台 计 算 机 的 计算 单元 是 其 中 央 部 件 一 一 它 具 有 将 接收 到 的 任意 输入 转换 成 输出 
的 能 力 以 及 改变 当前 处 理 状态 的 能 力 。CPU 是 最 常见 的 计算 单元 ， 然 而 ， 最 初 被 
设计 用 于 加 速 计算 机 图 像 处 理 的 图 形 处 理 单元 (GPU) 现在 变 得 更 加 适用 于 数值 计 
算 了 , 这 是 因为 其 自身 的 并 行 模式 使 得 大 量 计算 能 并 发 进行 。 无 论 哪 种 类 型 ,一 个 
计算 单元 都 会 接收 一 系列 比特 (比如 代表 数字 的 比特 ) 并 输出 另外 一 堆 比 特 ( 比 如 
代表 这 些 数字 之 和 的 比特 )。 除 了 实数 的 基本 算数 操作 和 二 进 制 的 比特 操作 以 外 ， 
些 计 算 单 元 还 提供 了 非常 特殊 的 操作 ， 比 如 “ 乘 加 混合 计算 ”， 接 收 三 个 数字 A、 
B、C 并 返回 A* B+C 的 值 。 


计算 单元 的 主要 属性 是 其 每 个 周期 能 进行 的 操作 数量 以 及 每 秒 能 完成 多 少 个 周期 。 
第 一 个 属性 通过 每 周期 完成 的 指令 数 (ITPC) “来 衡量 ， 而 第 二 个 属性 则 是 通过 其 时 
钟 速度 衡量 。 当 新 的 计算 单元 被 制造 出 来 时 , 它们 的 这 两 个 参数 总 是 互相 竞争 。 比 
如 Intel 的 Core 系列 具有 非常 高 的 PC 但 时 钟 速度 较 低 ， 而 Pentium 4 的 芯片 则 完 
全 相反 。 不 过 话 又 说 回来 ，GPU 的 IPC 和 时 钟 速度 都 很 高 ， 但 它们 有 别 的 问题 ， 
我 们 后 面 会 提 到 。 


另外 ,， 当 时钟 速度 提高 时 ， 能 够 立即 提高 该 计算 单元 上 所 有 的 程序 运行 速度 〈 因 为 
它们 每 秒 能 进行 更 多 运算 ) ， 而 提高 IPC 则 在 矢量 计算 能 力 上 有 相当 程度 的 影响 。 
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@ 不 要 跟 进 程 间 通信 (也 是 IPC) 混淆 一 一 我 们 会 在 第 9 章 讨 论 这 个 主题 。 
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量 计算 是 指 一 次 提供 多 个 数据 给 一 个 CPU 并 能 同时 被 操作 。 这 种 类 型 的 CPU 指 
令 被 称 为 SIMD ( 单 指令 多 数据 )。 

总 之 ， 计 算 单 元 在 过 去 十 年 的 进展 颇 为 有 限 (图 1-1)。 时 钟 速度 和 IPC 的 提升 都 
限于 停滞 , 因为 晶体 管 已 经 小 到 了 物理 的 极限 ,结果 就 是 芯片 制造 商 开 始 依 靠 其 他 
手段 来 获得 更 高 的 速度 ， 包 括 超 线程 技术 ， 更 聪明 的 乱 序 执行 和 多 核 架 构 。 
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图 1-1 ”CPU 的 时 钟 速度 随时 间 的 变化 (数据 来 自 CPU DB) 


超 线程 技术 为 主机 的 操作 系统 (OS) 虚拟 了 第 二 个 CPU， 而 聪明 的 硬件 逻辑 则 试 
图 将 两 个 指令 线程 交错 地 插入 单个 CPU 的 执行 单元 。 如 果 成 功 插入 ， 能 比 单线 程 
提升 30%。 一 般 来 讲 ， 当 两 个 线程 的 工作 分 布 在 不 同 的 执行 单元 上 时 , 这样 做 效果 
不 错 一 一 比如 一 个 操作 浮 点 而 另 一 个 操作 整数 时 。 


乱 序 执行 允许 编译 器 检测 出 一 个 线性 程序 中 某 部 分 可 以 不 依赖 于 之 前 的 工作 , 也 就 
是 说 两 个 工作 能 够 以 各 种 顺序 执行 或 同时 执行 。 只 要 两 个 工作 的 成 果 都 能 够 在 正确 
的 时 间 点 上 依次 得 到 , 哪怕 它们 的 计算 次 序 跟 程序 设计 不 同 , 程序 也 能 继续 正确 运 
行 。 这 使 得 当 一 些 指令 被 阻塞 时 〈 比 如 等 待 一 次 内 存 访 问 )， 另 一 些 指令 得 以 执行 ， 
以 此 来 提升 资源 的 利用 率 。 
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最 后 也 是 对 于 高 级 程序 员 来 说 最 重要 的 是 多 核 架 构 的 普及 。 这 些 架 构 在 同一 个 
计算 单元 中 包含 了 多 个 CPU， 提 高 了 总 体 计算 能 力 ， 而 且 无 须 等 待 内 存 屏障 ， 
让 单个 核心 可 以 跑 得 更 快 。 这 就 是 为 什么 现在 已 经 很 难 找 到 少 于 双核 的 计算 机 
了 一 一 双核 意味 着 计算 机 有 两 个 互 连 的 物理 计算 单元 。 虽 然 这 增加 了 每 秒 可 以 
进行 的 操作 总 数 ， 但 是 想 要 让 两 个 计算 单元 都 达到 最 大 利用 率 的 话 还 需要 考虑 
很 多 错综复杂 的 因素 。 


给 CPU 增加 更 多 的 核心 并 不 一 定 能 提升 程序 运行 的 速度 。 这 是 由 思 确 世人 欠 企 佛 决 
定 的 。 简 单 地 说 , 阿 姆 达尔 定律 认为 如 果 一 个 可 以 运行 在 多 核 上 的 程序 有 某 些 执行 
路 径 必 须 运行 在 单 核 上 , 那么 这 些 路 径 就 会 成 为 瓶颈 导致 最 终 速度 无 法 通过 增加 更 
多 核心 来 提高 。 


比如 , 假设 我 们 有 一 个 调查 需要 100 个 人 参与 , 该 调查 需要 花费 1 分 钟 ， 如 果 我 们 
只 有 一 位 提问 者 (该 提问 者 向 第 一 位 参与 者 提问 ， 等待 回 答 ,然后 移 向 下 一 位 参与 
者 ) ， 那 么 我 们 可 以 用 100 分 钟 完成 这 个 任务 。 这 个 单 人 提问 并 等 待 回答 的 流程 就 
是 一 个 顺序 执行 的 过 程 。 对 于 一 个 顺序 执行 的 过 程 ， 我 们 每 次 只 能 完成 一 个 操作 ， 
后 面 的 操作 必须 等 待 前面 的 操作 完成 。 


然而 ， 如 果 我 们 有 两 位 提问 者 ， 他 们 就 可 以 同时 进行 测试 ， 用 50 分 钟 完 成 任务 。 
这 是 由 于 两 位 提问 者 之 间 不 需要 互相 了 解 , 没有 依赖 关系 , 所 以 整个 任务 就 很 容易 
划分 。 


增加 更 多 提问 者 可 以 进一步 提速 ， 直 到 我 们 有 100 位 提问 者 。 此 时 ， 整 个 流程 仅 需 
要 1 分钟 就 可 以 完成 , 仅 取 决 于 参与 者 回答 问题 所 需要 的 时 间 。 继续 增加 提问 者 将 
不 会 带 来 任何 速度 提升 , 因为 这 些 多 余 的 提问 者 无 事 可 干 一 一 所 有 的 参与 者 都 已 经 
在 接受 调查 ! 此 时 , 唯一 能 够 降低 整体 时 间 的 办 法 是 降低 单个 参与 者 完成 调查 的 时 
间 ， 也 就 是 降低 顺序 部 分 所 需要 的 执行 时 间 。 同 样 ， 对 于 CPU， 我 们 可 以 增加 更 
多 的 核心 直到 某 个 必须 单 核 执行 的 任务 成 为 瓶颈 。 也 就 是 说 , 任何 并 行 计算 的 瓶颈 
最 终 都 会 落 在 其 顺序 执行 的 那 部 分 任务 上 。 


另外 ， 对 于 Python 来 说 ， 充 分 利用 多 核 性 能 的 阻碍 主要 在 于 Python 的 全 局 衣 附 途 
级 (GIL)。GIL 确保 Python 进程 一 次 只 能 执行 一 条 指令 ， 无 论 当 前 有 多 少 个 核心 。 
这 意味 着 即使 某 些 Python 代码 可 以 使 用 多 个 核心 ,在 任意 时 间 点 仅 有 一 个 核心 在 
执行 Python 的 指令 。 以 前 面 调 查 的 例子 来 说 ， 即 使 我 们 有 100 位 提问 者 ， 然 而 一 
次 仅 有 一 位 可 以 提问 和 接受 回答 ， 并 没有 什么 用 ! 这 看 上 去 是 个 严重 的 阻碍 ， 特 别 
是 当 现在 计算 机 发 展 的 趋势 就 是 拥有 更 多 而 非 更 快 的 计算 单元 的 时 候 。 好 在 这 个 问 
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题 其 实 可 以 通过 一 些 方法 来 避免 , 比如 标准 库 的 multiprocessing, 或 numexpr、 
Cython 等 技术 ， 或 分 布 式 计算 模型 等 。 


1.1.2 存储 单元 

计算 机 的 存储 单元 被 用 于 保存 比特 。 这 些 比特 可 能 代表 程序 中 的 变量 , 或 一 幅 图 片 
的 像素 。 存 储 单元 的 概念 包括 了 主板 上 的 寄存 器 、RAM 以 及 硬盘 。 所 有 这 些 不 同 
类 型 的 存储 单元 的 主要 区 别 在 于 其 读 写 数据 的 速度 。 更 复杂 的 问题 在 于 , 其 读 写 数 
据 的 速度 还 与 数据 的 读 写 方式 息息相关 。 


比如 , 大 多 数 存 储 单元 一 次 读 一 大 块 数据 的 性 能 远 好 于 读 多 次 小 块 数据 ( 僻 访 套用 
VS 恼 轴 妆 族 )。 将 这 些 存 储 单元 中 的 数据 想象 成 一 本 书 中 的 书页 , 大 多 数 存 储 单元 
的 读 写 速度 在 连续 翻 页 时 高 于 经 常 从 一 张 随机 页 跳 至 男 一 张 随机 页 。 


所 有 的 存储 单元 或 多 或 少 都 受到 这 一 影响 ， 但 不 同类 型 存储 单元 受到 的 影响 却 大 
不 相同 。 


除了 读 写 速度 以 外 , 存储 单元 还 有 一 个 在 Pj 的 属性 , 表示 了 设备 为 了 查找 到 需要 的 
数据 所 花费 的 时 间 。 一 个 旋转 硬盘 的 延 时 可 能 较 高 ,因为 磁盘 必须 物理 旋转 到 一 
速度 且 读 取 磁 头 必须 移动 到 正确 的 位 置 。 而 从 另 一 方面 来 说 ，RAM 的 延 时 就 比较 
小 , 因为 一 切 都 是 固态 的 。 下 面 是 一 个 标准 工作 站 内 常见 的 各 类 存储 单元 的 简短 描 
述 ， 以 读 写 速度 排序 : 


旋转 硬盘 


计算 机 关机 也 能 保持 的 长 期 存储 。 读 写 ns 因为 磁盘 必须 物理 旋转 
和 等 待 磁头 移动 。 随 机 访问 性 能 下 降 但 容量 很 高 (TB 级 别 )。 











































































































固态 硬盘 
类 似 旋 转 硬 盘 ， 读 写 速度 较 快 但 容量 较 小 (GB 级 别 )。 
RAM 


用 于 保存 应 用 程序 的 代码 和 数据 (比如 用 到 的 各 种 变量 )。 具 有 更 快 的 读 写 速 
度 且 在 随机 访问 时 性 能 良好 ， 但 通常 受 限 于 容量 (GB 级 别 )。 























LI1/L2 缓存 
极 快 的 读 写 速度 。 进 入 CPU 的 数据 必须 经 过 这 里 。 很 小 的 容量 (KB 级 别 )。 





理解 高 性 能 Python 
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图 1-2 展示 了 当今 市 面 上 可 以 见 到 的 这 几 类 存储 单元 的 区 别 。 














一 个 清晰 可 见 的 趋势 是 读 写 速度 和 容量 成 反比 一 一 当 我 们 试图 加 快速 度 时 , 容量 就 
下 降 了 。 因 此， 很 多 系统 都 实现 了 一 个 分 层 的 存储 : 数据 一 开始 都 在 硬盘 里 ， 部 分 
进入 RAM， 然 后 很 小 的 一 个 子 集 进入 L1/L2 缓存 。 这 种 分 层 使 得 程序 可 以 根据 访 
问 速度 的 需求 将 数据 保存 在 不 同 的 地 方 。 在 试图 优化 程序 的 存储 访问 模式 时 , 我 们 
只 是 简单 优化 了 数据 存放 的 位 置 、 布 局 (为 了 增加 顺序 读 取 的 次 数 )， 以 及 数据 在 
不 同位 置 之 间 移动 的 次 数 。 男 外 ， 异步 WO 和 缓存 预 取 等 技术 还 提供 了 很 多 方法 来 
确保 数据 在 被 需要 时 就 已 经 存在 于 对 应 的 地 方 而 不 需要 浪费 额外 的 计算 时 间 一 一 
这 些 过 程 可 以 在 进行 其 他 计算 时 独立 进行 ! 
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1-2 各 类 存储 单元 的 特征 (2014 年 2 月 的 数据 ) 


1.1.3 通信 层 

最 后 ， 让 我 们 看 看 这 些 基 本 单元 如 何 互相 通信 。 通 信 有 很 多 模式 ， 但 它们 都 是 同一 
样 东西 的 变种 : 总线。 

比如 说 ， 房 记 点 线 是 RAM 和 工 1/L2 缓存 之 间 的 连接 。 它 将 已 经 准备 好 被 处 理 器 操 
作 的 数据 移入 一 个 集结 场所 以 备 计 算 所 需 , 又 将 计算 结果 移出 。 除 此 之 外 还 有 其 他 
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总 线 ， 如 外 部 总 线 就 是 硬件 设备 (如 硬盘 和 网 卡 ) 通 向 CPU 和 系统 内 存 的 主干 线 。 
该 总 线 通 常 比 前 端 总 线 慢 。 


实 上 ，LIL2 缓存 的 很 多 好 处 实际 上 是 来 自 更 快 的 总 线 。 因 为 可 以 将 需要 计算 的 
所 











在 慢 速 总 线 (连接 RAM 和 缓存 ) 上 攒 成 大 的 数据 块 ， 然 后 以 非常 快 的 速度 从 
端 总 线 (连接 缓存 和 CPU) 传人 CPU， 这 样 CPU 就 可 以 进行 更 多 计算 而 无 须 等 
待 这 么 长 的 时 间 。 


同样 , 使 用 GPU 的 不 利之 处 很 多 都 来 自 它 所 连接 的 总 线 : 因为 GPU 通常 是 一 个 外 
部 设备 ， 它 通过 PCI 总 线 通 信 ， 速 度 远 远 慢 于 前 端 总 线 。 结 果 ，GPU 数据 的 输入 
输出 就 像 是 一 种 抽 税 操作 。 异 质 染 构 , 一 种 在 前 端 总 线 上 同时 具有 CPU 和 GPU 的 
计算 机 架构 的 兴起 就 是 为 了 降低 数据 传输 成 本 ， 使 得 GPU 能 够 被 使 用 在 需要 传输 
大 量 数据 的 计算 上 。 


除了 计算 机 内 部 的 通信 模块 , 网 络 可 以 被 认为 是 另 一 种 通信 模块 。 不 过 这 个 模块 就 
比 之 前 讨论 的 更 为 灵活 , 一 个 网 络 设备 可 以 直接 连接 至 一 个 存储 设备 , 如 网 络 连 接 
存储 (NAS) 设备 或 计算 机 集群 中 的 另 一 台 计 算 机 节点 。 但 是 网 络 通信 通常 要 比 之 
前 讨论 的 其 他 类 型 的 通信 慢 很 多 。 前 端 总 线 每 秒 可 以 传输 数 十 GB， 而 网 络 则 仅 有 
数 十 MB。 


现在 我 们 清楚 ,一 条 总 线 的 主要 属性 是 它 的 速度 :在 给 定时 间 内 它 能 传输 多 少数 据 。 
该 属性 由 两 个 因素 决定 : 一 次 能 传输 多 少数 据 (总 线 带 宽 ) 和 每 秒 能 传输 几 次 (总 
线 频率 ) 。 需 要 说 明 的 是 一 次 传输 的 数据 总 是 有 序 的 : 一 块 数据 先 从 内 存 中 读 出 ， 
然后 被 移动 到 另 一 个 地 方 。 这 就 是 为 什么 总 线 的 速度 可 以 被 拆 分 为 两 个 因素 ， 因 为 
这 两 个 因素 分 别 独立 影响 计算 的 不 同方 面 : 高 的 总 线 带宽 可 以 一 次 性 移动 所 有 相关 
数据 ， 有 助 于 矢量 化 的 代码 (或 任何 顺序 读 取 内 存 的 代码 )， 而 另 一 方面 ， 低 带宽 
高 频率 有 助 于 那些 经 常 随机 读 取 内 存 的 代码 。 有 意思 的 是 , 这些 属 性 是 由 计算 机 设 
计 者 在 主板 的 物理 布局 上 决定 的 : 当 蕊 片 之 间 相距 较 近 时 , 它们 之 间 的 物理 链 路 就 
较 短 ， 就 可 以 允许 更 高 的 传输 速度 。 而 物理 链 路 的 数量 则 决定 了 总 线 的 带宽 (带宽 
这 个 词 真 的 具有 物理 上 的 意义 1)。 


由 于 物理 接口 可 以 针对 某 个 特定 应 用 优化 , 所 以 我 们 不 会 奇怪 世上 存在 成 百 上 千 种 
不 同类 型 的 连接 。 图 1-3 显示 了 一 些 常见 接口 的 比特 率 。 注 意 这 图 上 完全 没 提 到 连 
接 的 延 时 , 延 时 决定 了 一 个 连接 响应 数据 请 求 花费 的 时 间 (虽然 延 时 跟 具 体 的 计算 
机 系统 息息相关 ， 但 是 有 来 自 物理 接口 的 一 些 基 本 限制 )。 
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常见 接口 的 带 完 


计算 机 内 部 各 信 
RAM DDR3-1600| : :| RAMDDR3-1600[ .| 
PC-E3.0[ .| 
PCI-E 3.0 CFE 3:0 
DisplayPort 1.3| | 
nan 
ee HDMI2.0 
Homzl[ Sas 
SATA 3.2 
0 5000 10000 15000 
MB/s MB/s MB/s MB/s 
家 庭 网 络 


USB3.1[E .| 
ESATAL UL 
Gigabit Ethernet[ | 


eSATA 


Gigabit Ethernet 





Typical HDDT | 
Typical HDD WiFi 802.11nE | 
WiFi 802.11n USB 2.00 
0 500 1000 1500 
Uae MB/s MB/s MB/s MB/s 
互联 网 
IE4cL :| : DE46|[ .| 
Cable Modem : Cable Modem | | 
HSPA+ 3.5GE :| : HSPA+ 35G| | 
Ev-po3G| :| : EV-DO 3G| | 
0 10 20 30 
MB/s MB/s MB/s MB/s 


来 源 : http://en.wikipedia.org/wiki/List_of device bit rates 


1-3 ”各 种 常见 界面 的 连接 速度 (图 片 来 自 Leadbuffalo) 


1.2 将 基本 的 元 素 组 装 到 一 起 


仅 理解 计算 机 的 基本 组 成 部 分 并 不 足以 理解 高 性 能 编程 的 问题 。 所 有 这 些 组 件 的 互 
动 与 合作 还 会 引入 新 的 复杂 度 。 本 段 将 研究 一 些 样本 问题 ， 描 述 理想 的 解决 方案 以 
及 了 Python 如 何 实现 它们 。 


警告 : 本 段 可 能 看 上 去 让 人 绝望 一 一 大 多 数 问题 似乎 都 证 明 Python 并 不 适合 解决 


性 能 问题 。 这 不 是 真 的， 原因 有 两 点 。 首 先 ， 在 所 有 这 些 “ 高 性 能 计算 要 素 ” 中 ， 
我 们 忽视 了 一 个 至 关 重 要 的 要 素 : 开发 者 。 原 生 Python 在 性 能 上 欠缺 的 功能 会 被 
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迅速 开发 出 来 。 另 外 , 我 们 会 在 本 书 中 介绍 各 种 模块 和 原理 来 帮助 减轻 这 里 遇 到 的 
问题 。 当 这 两 点 结合 起 来 ,我 们 就 能 在 快速 开发 Python 的 同时 移 除 很 多 性 能 局 限 。 


理想 计算 模型 和 Python 虚拟 机 
为 了 更 好 地 理解 高 性 能 编程 的 要 素 ， 让 我 们 来 看 一 段 用 于 判断 质数 的 简单 代码 样 
例 : 


import math 
def check prime (number): 
sqrt number = math.sqrt (number) 
number float = float (number) 
for i in xrange(2, int(sqrt number)+1): 
if (number float / i).is integer(): 
return False 
return True 


























print "check prime(10000000) 
print "check prime(10000019) 


", check prime(10000000) # False 
", check prime(10000019) # True 


让 我 们 用 抽象 的 计算 模型 来 分 析 这 段 代 码 对 比 Python 运行 这 段 代码 时 实际 发 生 了 
什么 。 由 于 是 抽象 模型 ， 我 们 将 忽略 很 多 理想 化 的 计算 机 以 及 Python 运行 代码 方 
式 的 细节 。 不 过 , 这 是 一 个 在 解决 实际 问题 之 前 很 好 的 练习 : 思考 算法 中 的 通用 组 
件 以 及 如 何 最 优 地 使 用 这 些 组 件 来 解决 问题 。 只 要 明白 在 理想 情况 下 以 及 实际 在 
Python 中 发 生 了 什么 ， 我 们 就 能 让 自己 的 Python 代码 一 步 步 接近 最 优 。 


1. 理想 计算 模型 


在 代码 的 开头 ， 我 们 将 number 的 值 保存 于 RAM 中。 为 了 计算 sqrt_number 和 
number_float， 我 们 需要 将 该 值 传人 CPU。 在 理想 情况 下 ， 我 们 只 需要 传 一 次 ， 
它 将 被 保存 在 CPU 的 LIL2 缓存 中 ,然后 CPU 会 进行 两 次 计算 并 将 结果 传 回 RAM 
保存 。 这 是 一 个 理想 的 情况 ， 因 为 我 们 令 从 RAM 中 读 取 number 的 值 的 次 数 最 少 ， 
转 而 以 快 很 多 的 LLL2 缓存 的 读 取代 替 。 另 外 , 我 们 还 令 前 端 总 线 传输 数据 的 次 数 
最 少 ， 以 更 快 的 后 端 总 线 (连接 CPU 和 各 类 缓存 ) 的 传输 代替 之 。 将 数据 保持 在 
需要 的 地 方 并 尽量 少 移动 这 一 场景 对 于 优化 来 说 至 关 重要 。 所 谓 “ 沉 重 数据 ”的 概 
念 指 的 是 移动 数据 需要 花费 时 间 ， 而 这 就 是 我 们 需要 避免 的 。 


在 代码 的 循环 部 分 ,与 其 一 次 次 将 庆 输 入 CPU ,我 们 更 希望 一 次 就 将 number_fIoat 
和 多 个 i 的 值 输入 CPU 进行 检查 。 这 是 可 能 的 ， 因 为 CPU 的 矢量 操作 不 需要 和 额 
外 的 时 间 代 价 ， 意 味 着 它 可 以 一 次 进行 多 个 独立 计算 。 所 以 我 们 希望 将 
number_float 传人 CPU 缓存 , 以 及 在 缓存 放 得 下 的 情况 下 传人 尽 可 能 多 的 i 的 
值 。 对 于 每 一 对 number_float/i, 我 们 将 进行 除法 计算 并 检查 结果 是 否 为 整数 ， 
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然后 传 回 一 个 信号 表明 是 否 有 任意 一 个 结果 确实 为 整数 。 如 果 是 ， 则 函数 结束 。 如 
果 否 ， 我 们 继续 下 一 批 计算 。 这 样 ， 对 于 多 个 i 的 值 ， 我 们 只 需要 传 回 一 个 结果 ， 
而 不 是 依靠 总 线 返 回 所 有 的 值 。 这 利用 了 CPU 的 矢量 化 计算 的 能 力 , 或 者 说 在 一 个 
时 钟 周期 内 以 一 条 指令 操作 了 多 个 数据 。 


这 一 矢量 操作 的 概念 可 以 用 下 列 代码 来 表述 : 


import math 
def check prime (number): 
sqrt number = math.sqrt (number) 
number float = float (number) 
numbers = range(2, int(sqrt number)+1) 



































for i in xrange(0, len(numbers), 5): 
# the following line is not valid Python code 
result = (number float / numbers[i:(i+5)]).is integer() 
If anyl(result): 
return False 
returrn. TEUS 


这 里 ， 我 们 让 程序 一 次 对 5 个 i 的 值 进行 除法 和 整数 检查 。 当 被 正确 地 矢量 化 时 ， 
CPU 仅 需 一 条 指令 完成 这 行 代码 而 不 是 对 每 个 i 进行 独立 操作 。 理 想 情 况 下 ， 
any (result) 操作 将 只 发 生 于 CPU 内 部 而 无 须 将 数据 传 回 RAM。 我 们 将 在 第 6 
章 讨论 更 多 关于 矢量 操作 的 细节 , 包括 它 具 体 如 何 工 作 以 及 在 什么 情况 下 有 利于 你 
的 代码 。 


2. Python 虚拟 机 


Python 解释 器 为 了 抽 离 底层 用 到 的 计算 元 素 做 了 很 多 工作 。 这 让 编程 人 员 无 须 考 虑 
如 何 为 数组 分 配 内 存 、 如 何 组 织 内 存 以 及 用 什么 样 的 顺序 将 内 存 传人 CPU。 这 是 
Python 的 一 个 优势 ， 让 你 能 够 集中 在 算法 的 实现 上 。 然 而 它 有 一 个 巨大 的 性 能 代价 。 


首先 我 们 要 意识 到 Python 核心 运行 于 一 组 非常 优化 的 指令 上 。 而 诀窍 就 是 让 Python 
以 正确 的 次 序 执行 它们 来 获得 更 好 的 性 能 。 比 如 下 例 ,， 我 们 可 以 轻松 看 出 ， 虽 然 两 
个 算法 都 有 0 (n) 的 运行 时 间 ，search_fast 会 比 search_slow 快 ， 因 为 它 提 
前 中 止 了 循环 ， 跳 过 了 不 必要 的 计算 。 

def search fast (haystack, needle): 


for item in haystack: 
if item == needle: 










































































return True 
return False 


def search slow(haystack, needle): 
return value = False 
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for item in haystack : 
if dtem'== needle:; 
return value = True 
return return value 


通过 性 能 分 析 查 找 代 码 的 慢 速 区 域 以 及 寻找 更 有 效 的 算法 其 实 就 是 寻找 这 些 无 用 
的 操作 并 删除 它们 ,最 终 的 结果 是 一 样 的 ,但 计算 和 传输 数据 的 次 数 却 大 大 减少 了 。 


而 Python 虚拟 机 抽象 层 的 影响 之 一 就 是 矢量 操作 变 得 不 是 直接 可 用 了 。 我 们 最 初 
的 质数 函数 会 循环 遍历 i 的 每 一 个 值 而 不 是 将 多 次 遍历 组 合成 一 个 矢量 操作 ,而 我 
们 抽象 以 后 的 矢量 化 代码 并 不 是 合法 的 Python 代码 ， 因 为 我 们 不 能 用 一 个 列表 去 
除 一 个 浮 点 。numpy 这 样 的 外 部 库 可 以 通过 增加 矢量 化 数学 操作 的 方式 帮助 我 们 
解决 这 个 问题 。 


另外 ，Python 抽象 还 影响 了 任何 需要 为 下 一 次 计算 保存 LI/L2 缓存 中 相关 数据 的 
优化 。 这 有 很 多 原因 ， 首 先是 Python 对 象 不 再 是 内 存 中 最 优化 的 布局 。 这 是 因为 
Python 是 一 种 垃圾 收集 语言 内 存 会 被 自动 分 配 并 在 需要 时 释放 。 这 会 导致 内 
存 碎 片 并 影响 向 CPU 缓存 的 传输 。 另 外 , 我 们 也 没有 任何 机 会 去 直接 改变 数据 结 
构 在 内 存 中 的 布局 ， 这 意味 着 总 线 上 的 一 次 传输 可 能 并 不 包含 一 次 计算 的 所 有 相 
关 信息 ， 即 使 这 些 信息 少 于 总 线 带宽 。 


第 二 个 问题 更 加 基本 ， 根 源 是 Python 的 动态 类 型 以 及 Python 并 不 是 一 门 编译 性 的 
语言 。 很 多 C 语言 开发 者 已 经 在 多 年 开发 过 程 中 意识 到 ， 编 译 器 总 是 比 你 聪明 。 

当 编译 静态 代码 时 ， 编 译 器 可 以 做 很 多 的 事情 来 改变 对 象 的 内 存 布局 以 及 让 CPU 
运行 某 些 指令 来 优化 它们 。 然 而 ，Python 并 不 是 一 种 编译 性 的 语言 : 更 糟 的 是 , 它 
还 具有 动态 类 型 , 意味 着 任何 算法 上 可 能 的 优化 机 会 都 会 更 加 难以 实现 ， 因为 代码 
的 功能 有 可 能 在 运行 时 被 改变 。 有 很 多 方法 可 以 缓解 这 一 问题 , 其 中 最 主要 的 一 个 
方法 就 是 使 用 Cython， 它 可 以 将 Python 代码 进行 编译 并 允许 用 户 “提示 ”编译 器 
代码 究竟 有 多 “动态 ”。 


最 后 ， 之 前 提 到 的 GIL 会 影响 并 行 代码 的 性 能 。 比 如 ,假设 我 们 改变 代码 来 使 用 
多 个 CPU 核心 ， 每 个 核心 收 到 一 堆 数字 ， 取 值 范围 是 2 到 sqrtN。 每 个 核心 可 以 
对 自身 收 到 的 数据 进行 计算 ， 当 它们 都 完成 时 可 以 互相 进行 比较 。 这 看 上 去 是 一 个 
好 方案 , 虽然 我 们 失去 了 提前 中 止 循环 的 能 力 , 但 是 随 着 我 们 使 用 的 核心 数 的 增加 ， 
每 个 核心 需要 进行 的 检查 数 降 低 了 (例如, 如果 我 们 有 M 个 核心 ,每 个 核心 只 需要 
进行 sqrtN/M 次 检查 )。 然 而 , 由 于 GIL, 一 次 仅 有 一 个 核心 可 以 被 使 用 。 这 意味 
着 我 们 还 是 以 非 并 行 的 方式 运行 这 段 代 码 , 而 且 还 不 能 提前 中 止 。 我们 可 以 使 用 多 
进程 (multiprocessing 模块 ) 而 不 是 多 线程 ， 或 者 使 用 Cython 或 外 部 函数 来 
避免 这 个 问题 。 
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1.3 为 什么 使 用 Python 


Python 具有 高 度 的 表现 力 且 奉 易 上 手 一 新 开发 者 人 很 快 发 现 他 们 可 以 在 很 短 时 
间 里 做 到 很 多 。 许 多 Python 库 包 含 了 用 其 他 语言 编写 的 工具 , 使 Python 可 以 轻易 调 
用 其 他 系统 。 比 如 ，scikit-learn 机 器 学 习 系统 包 合 了 LIBLINEAR 和 LIBSVM 
(两 者 丝 以 C 语言 写成 )，numpy 库 则 包含 了 BLAS 以 及 其 他 用 C 和 Fortran 语言 写 
的 库 。 因 此 ， 正 确 运用 这 些 库 的 Python 代码 确实 可 以 在 速度 上 做 到 跟 C 媲美 。 


Python 被 誉 为 “内 含 电池 ”， 因 为 它 内 建 了 很 多 重要 且 稳 定 的 库 。 包 括 : 









































unicode 和 bytes 





语言 核心 内 建 。 
array 

原始 类 型 的 高 效 数组 。 
math 


基本 数学 操作 ， 包 括 一 些 简 单 的 统计 数学 。 


Sgqlite3 




















包含 了 流行 的 基于 文件 的 SQL 引擎 SQLite3。 
collections 

多 种 对 象 ， 包 括 双向 队列 、 计 数 器 和 字典 的 变种 。 
除了 这 些 语言 核心 库 ， 还 有 大 量 的 外 部 库 ， 包 括 : 
numpy 

一 个 Python 数字 库 (矩阵 运算 的 基石 库 )。 
scipy 


大 量 可 信 的 科学 库 的 集合 ， 通 常 包含 了 广 受 尊重 的 C 和 Fortran 库 。 















































pandas 


一 个 数据 分 析 库 ,类 似 于 RR 语言 的 数据 框 或 Excel 表 格 ,基于 scipy 和 numpy。 
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SC1ikit-learn 


正在 快速 成 为 默认 的 机 器 学 习 库 ， 基 于 scipy。 


biopython 


一 个 生物 信息 学 库 ， 类 似 于 bioperl。 


tornado 


一 个 提供 了 并 发 机 制 的 库 。 


各 类 数据 库 封 装 


为 了 跟 基 本 上 所 有 的 数据 库 通信 ， 包 括 Redis、MongoDB、HDF5 以 及 SQL。 





各 类 网 站 开发 框架 








用 于 创建 网 站 的 各 种 高 性 能 系统 , 如 django、pyramid、flask 和 tornado。 


OpenCV 


各 类 4PI 封装 


计算 机 视觉 的 封装 。 





用 于 轻松 访问 各 种 时 晓 的 web API 如 Google、Twitter 和 LinkedIn。 








为 了 适应 各 种 部 署 环境 ， 还 有 大 量 可 选 的 管理 环境 和 shell， 包 括 : 














标准 发 行 版 。 


Enthought 公司 的 EPD 和 Canopy， 一 个 非常 成 熟 且 能 二 的 环境 。 

















Continuum 公司 的 Anaconda， 一 个 注重 科学 计算 的 环境 。 


Sage， 一 个 类 似 于 Matlab 的 环境 ， 包 括 一 个 集成 开发 环境 (IDE)。 





Python(x,y)。 
IPython， 一 个 广泛 被 科学 家 和 开发 人 员 使 用 的 Python 互动 shell。 
IPython Notebook， 一 个 基于 浏览 器 的 了 Python 前 端 ， 广 泛 用 于 教学 和 演示 。 


BPython， 另 一 个 Python 互动 shell。 
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Python 的 一 大 优势 在 于 它 可 以 快速 实现 出 一 个 新 主意 的 原型 。 由 于 存在 各 种 支 
持 库 ， 它 能 够 轻易 测试 出 一 个 主意 是 否 可 行 ， 哪 怕 第 一 个 实现 可 能 是 克 兢 磁 碰 
做 出 来 的 。 


如 果 你 想 要 让 你 的 数学 函数 更 快 ， 看 看 numpy。 如 果 你 想 要 实验 一 下 机 器 学 习 ， 
试 试 scixit-learn。 如 果 你 在 清理 和 操作 数据 ， 那 么 Pandas 是 一 个 好 选择 。 


总 的 来 说 ， 我 们 有 理由 提出 这 样 一 个 问题 ,“ 为 了 让 我 们 的 系统 跑 得 更 快 而 进行 的 
优化 从 长 期 来 看 会 不 会 反而 导致 我 们 团队 整体 跑 得 更 慢 了 ? ”只 要 花费 足够 的 人 
力 , 系统 总 是 可 以 被 榨 出 更 多 的 性 能 , 但 这 可 能 导致 系统 脆弱 的 可 维护 性 以 及 难以 
理解 的 优化 并 最 终 导致 整个 团队 绊 倒 在 地 。 


Cython 就 是 一 个 例子 (7.6 节 )， 它 将 Python 代码 注释 成 类 似 C 语言 的 类 型 ， 被 转 
化 后 的 代码 可 以 被 一 个 C 编译 器 编译 。 它 在 速度 上 的 提升 令 人 惊叹 (相对 较 少 的 
努力 就 能 获得 C 语言 的 速度 ) ， 但 后 续 代 码 的 维护 成 本 也 会 上 升 。 尤 其 是 ， 对 这 个 
新 模块 可 能 更 难 , 因为 团队 成 员 需要 具备 一 定 的 编程 能 力 来 理解 那些 为 了 性 能 提升 
而 绕 开 Python 虚拟 机 的 折衷 。 
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第 2 章 





通过 性 能 分 析 找 到 瓶颈 


读 完 本 章 之 后 你 将 能 够 回答 下 列 问题 

。 ”如 何 找 到 代码 中 速度 和 RAM 的 瓶颈 ? 

。 ”如 何 分 析 CPU 和 内 存 使 用 情况 ? 

。 ”我 应 该 分 析 到 什么 深度 ? 

。 ”如 何 分 析 一 个 长 期 运行 的 应 用 程序 ? 

。 在 CPython 台面 下 发 生 了 什么 ? 

。 ”如 何在 调整 性 能 的 同时 确保 功能 的 正确 ? 























性 能 分 析 帮 助 我 们 找到 瓶颈 , 让 我 们 在 性 能 调 优 方面 做 到 事半功倍 。 性 能 调 优 包括 











以 及 “足够 瘦 "。 性 能 分 析 能 够 让 你 用 最 小 的 代价 做 


任何 可 以 测量 的 资源 都 可 以 被 分 析 (不 仅 是 CPU1 ) 。 
间 和 内 存 的 占用 。 你 也 可 以 将 同样 的 技术 用 于 分 析 网 


如 果 一 个 程序 跑 得 太 慢 或 占用 了 太 多 RAM , 那么 你 一 


























当然 ,你 完全 可 以 跳 过 性 能 分 析 , 修正 你 认为 可 能 有 问题 的 地 方 一 一 但 是 小 心 , 你 





很 有 可 能 “修正 了 ”错误 的 地 方 。 比 起 依靠 你 的 直觉， 
能 分 析 ， 做 出 一 个 假设 ， 然 后 再 改动 你 的 代码 结构 。 














在 速度 上 巨大 的 提升 以 及 减少 资源 的 占用 ,也 就 是 说 让 你 的 代码 能 够 跑 得 “足够 快 ” 





上 最 实用 的 决定 。 


我 们 在 本 章 将 分 析 CPU 的 时 
络 带宽 和 磁盘 IO。 





定 希 望 把 有 问题 的 代码 修正 


























更 有 效率 的 做 法 是 先进 行 性 








人 有 时 候 懒 点 比较 好 。 先 进行 性 能 分 析 让 你 能 够 迅速 定位 需要 被 解决 的 瓶颈 ， 
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然后 你 就 可 以 用 最 小 的 改动 获得 你 需要 的 性 能 提升 。 如 果 你 回避 性 能 分 析 直 接 
进行 优化 ， 那 么 你 很 有 可 能 最 终 付出 了 更 多 的 努力 。 优 化 应 该 总 是 基于 性 能 分 
析 的 结果 。 


2.1 高 效 地 分 析 性 能 

性 能 分 析 的 首要 目标 是 对 受 测 系统 进行 测试 来 发 现 哪里 太 慢 (或 占用 太 多 RAM， 
或 导致 太 多 磁盘 LO 或 网 络 WO)。 性 能 分 析 一 般 会 导致 额外 的 性 能 开销 (一 般 会 慢 
10 到 100 倍 ) ， 但 你 依然 希望 你 的 代码 尽 可 能 像 是 在 真正 的 环境 中 一 样 运行 。 所 以 
要 以 测试 用 例 的 方式 将 你 需要 测试 的 那 部 分 系统 独立 出 来 。 最 好 这 个 测试 用 例 已 经 
使 用 了 一 套 自己 的 模块 。 


本 章 介 绍 的 第 一 个 基本 技术 包括 IPython 的 $timeit 魔法 函数 ，time .time ()， 
以 及 一 个 计时 修饰 器 。 你 可 以 使 用 这 些 技 术 来 了 解 语句 和 函数 的 行为 。 


然后 我 们 会 学 习 cProfile (2.6 节 ), 告诉 你 如 何 使 用 这 个 内 建 工 具 来 了 解 代 码 中 
那些 函数 耗 时 最 长 。 这 将 让 你 站 在 高 处 俯 隔 你 的 问题 ， 使 你 能 够 将 注意 力 集中 到 关 
键 函数 上 。 


接 下 来 , 我 们 会 去 看 line_profiler (2.8 节 )， 这 个 工具 能 够 对 你 选 定 的 函数 进 
行 逐 行 分 析 。 其 结果 将 包含 每 行 被 调用 的 次 数 以 及 每 行 花费 的 时 间 百 分 比 。 这 恰 能 
让 你 知道 是 哪里 跑 得 慢 以 及 为 什么 。 


有 了 line_profiler 的 结果 ， 你 就 有 了 足够 的 信息 去 使 用 编译 器 (第 7 章 )。 


在 第 6 章 ( 例 6-8)， 你 将 学 到 如 何 使 用 perf stat 命令 来 了 解 最 终 执行 于 CPU 
上 的 指令 的 个 数 以 及 CPU 缓存 的 利用 率 。 这 让 你 能 够 进一步 调 优 矩 阵 操作 。 读 完 
本 章 后 你 应 该 去 看 看 那个 例子 。 


line _profiler 之后, 我们 会 演示 heapy (2.10 节 ), 它 可 以 追踪 Python 内 存 中 
所 有 的 对 象 一 一 这 对 于 消灭 奇怪 的 内 存 泄漏 特别 有 用 。 如 果 你 的 系统 需要 持续 运 
行 ， 那么 你 会 对 dowser (2.11 节 ) 感 兴趣 , 它 让 你 能 够 通过 一 个 Web 浏览 器 界面 
审查 一 个 持续 运行 的 进程 中 的 实时 对 象 。 

为 了 帮助 你 了 解 为 什么 你 的 RAM 占用 特别 高 ,我 们 会 给 你 演示 memory_profiler 
(2.9 节 )。 它 能 以 图 的 形式 展示 RAM 的 使 用 情况 随时 间 的 变化 ， 这 样 你 就 可 以 向 你 
的 同事 们 解释 为 什么 某 个 函数 占用 了 比 预期 更 多 的 RAM。 
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备 忘 

无 论 你 用 什么 方法 分 析 代 码 性 能 ， 都 必须 记得 用 足够 的 单元 测试 履 姜 
你 的 代码 。 单 元 测试 能 帮助 你 避免 思春 的 错误 并 让 你 的 结果 可 重 现 。 
没有 单元 测试 风险 极 大 。 

在 编译 或 重 写 你 的 算法 之 前 始终 进行 性 能 分 析 。 你 需要 证 据 来 决定 最 
有 效 的 优化 手段 。 


最 后 ， 我 们 还 会 给 你 介绍 CPython 中 的 Python 字 节 码 (2.12 节 )， 这 样 你 就 能 够 了 
解 在 其 台面 下 发 生 了 什么 。 具 体 来 说 ， 了 解 基于 栈 的 Python 虚拟 机 如 何 运行 将 帮 
助 你 明白 为 什么 某 个 编程 风格 会 网 得 比 别人 慢 。 


在 结束 本 章 之 前 ， 我 们 会 回顾 如 何在 性 能 分 析 中 集成 单元 测试 (2.13 节 )， 让 代码 
跑 得 更 有 效 的 同时 维持 正确 。 


最 后 我 们 将 讨论 性 能 分 析 的 策略 (2.14 节 )， 这 样 你 就 能 够 可 靠 地 分 析 你 的 代码 并 
收集 正确 的 数据 来 验证 你 的 假设 。 在 这 里 ， 你 将 了 解 到 动态 CPU 频率 以 及 
TurboBoost 等 特性 能 够 如 何 和 看 曲 你 的 性 能 分 析 结 果 以 及 如 何 茜 用 这 些 功 能 。 


为 了 讲解 所 有 这 些 步 又， 我 们 需要 以 一 个 便于 分 析 的 函数 为 例 。 下 一 节 我 们 介绍 
Julia 集合 。 这 是 一 个 对 RAM 有 一 点 饥 渴 的 CPU 密集 型 函数 ， 而 且 它 还 具有 非 线 
性 的 行为 (这 样 我 们 就 无 法 轻易 预测 其 结果 )， 这 意味 着 我 们 需要 在 运行 时 分 析 其 
性 能 而 没 法 进行 线 下 调查 。 






































2.2 Julia 集合 的 介绍 


让 我 们 从 Julia 集合 这 个 有 趣 的 CPU 密集 型 问题 开始 。 这 是 一 个 可 以 产生 复杂 的 输 
出 图 像 的 分 形 数列 ， 以 数学 家 Gaston Julia 的 名 字 命 名 。 


函数 的 代码 相当 长 ， 你 不 会 想 要 自己 实现 一 个 。 它 包含 一 个 CPU 密集 型 的 组 件 
和 一 个 显 式 的 输入 集合 。 这 一 配置 允许 我 们 分 析 CPU 和 RAM 的 使 用 情况 以 帮 
助 我 们 了 解 代 码 中 哪 部 分 过 多 地 消耗 了 这 两 项 计算 资源 。 将 代码 故意 做 成 非 最 全 
的 实现 , 这 样 我 们 就 可 以 检查 耗 内 存 的 操作 和 慢 的 语句 。 我 们 在 本 章 后 面 将 修正 
一 个 慢 的 语句 和 一 个 耗 内 存 的 语句 ,然后 在 第 7 章 , 我 们 还 将 显著 提升 整个 函数 
的 执行 时 间 。 


我 们 将 分 析 一 段 能 够 生成 一 个 伪 灰 阶 图 〈 图 2-1) 和 一 个 纯 灰 阶 变种 (图 2-3) 的 
代码 ， 设 Julia 集合 的 复数 点 c=-0.62772-0.42193j。 一 个 Julia 集合 可 以 通过 
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独立 计算 每 一 个 像素 点 得 到 ， 也 就 是 说 这 是 一 个 “完美 并 行 计算 的 问题 ” ， 每 个 点 
之 间 没 有 任何 数据 共享 。 


























图 2-1 Julia 集合 的 伪 灰 阶 图 ， 细 节 高 亮 





如 果 我 们 选择 一 个 不 同 的 <， 就 会 得 到 一 个 不 同 的 图 像 。 根 据 我 们 的 选择 ， 有 些 区 
域 算 起 来 较 快 而 另 一 些 会 较 慢 ，; 这 有 助 于 我 们 的 分 析 。 


问题 的 有 趣 之 处 在 于 我 们 对 每 一 个 像素 的 计算 都 需要 进行 一 个 次 数 不 定 的 循环 。 每 
一 次 迭代 都 需要 计算 坐标 值 是 趋 于 无 穷 , 还 是 收敛 。 那 些 经 过 少数 迭代 就 能 算出 结 
果 的 坐标 在 图 2-1 上 为 黑色 ， 而 那些 需要 大 量 迭 代 才 能 算出 结果 的 坐标 为 白色 。 白 
色 区 域 需 要 更 多 计算 ， 因 此 生成 时 间 更 长 。 


让 我 们 定义 一 个 z 的 坐标 函数 进行 计算 。 函 数 会 计算 复数 z 的 平方 加 c: 
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f(z)=2z +e 


我 们 迭代 调用 该 函数 并 用 abs 计算 逃逸 条 件 。 如 果 逃 逸 值 为 False， 那 么 我 们 终 
止 循环 并 在 该 坐标 上 记录 下 迭代 的 次 数 。 如 果 逃 逸 条 件 始终 不 满足 ,那么 我 们 在 经 
过 maxite 次 迭代 后 终止 ， 并 将 该 z 坐标 转化 为 一 个 彩色 像素 点 。 


伪 代 码 如 下 : 


for z in coordinates: 








for iteration in range (maxiter): # limited iterations per point 
if abs(z) < 2.0: # has the escape condition been broken? 
2 = 类 记 
ESE 
break 


# store the iteration count for each 2 and draw later 
让 我 们 试 算 两 个 坐标 来 解释 这 个 函数 。 
首先 ， 我们 将 使 用 图 的 左上 角 和 坐标 -1 .8-1.8j。 在 坐标 更 新 前 我 们 就 必须 首先 计 
算 逃 逸 条 件 abs (z) < 2: 


2 89 
print abs (z) 











2.54558441227 


我 们 可 以 看 到 第 0 次 迭代 逃逸 条 件 即 为 False， 于 是 我 们 不 需要 更 新 坐标 。 该 坐 
标的 输出 值 就 是 0。 


现在 让 我 们 跳 到 图 中 央 的 z = 0 + 0j 并 尝试 几 次 迭代 : 


c= -0.62772-0.42193j 
z = 0+0] 
for n in range (9): 











Z SG 
print "{}: z={:33}, abs(z)={:0.2f}, c={}".format (n, z, abs(z), c) 
0 z= (=0562772=0.421293]); abs (Zz)=0.76, c=(-0.62772-0.42193j) 
1: z= (-0.4117125265+0.1077777992j)， abs (Zz)=0.43, c=(-0.62772-0.42193j) 
2: z=(-0.469828849523-0.510676940018j),， abs (2z)=0.69, c=(-0.62772-0.42193j) 
3: z=(-0.667771789222+0.057931518414j),， abs (2z)=0.67, c=(-0.62772-0.42193j) 
4: z=(-0.185156898345-0.499300067407j),， abs(z)=0.53, c=(-0.62772-0.42193j) 
5: Zz=(-0.842737480308-0.237032296351j),， abs(z)=0.88, c=(-0.62772-0.42193j) 
6: z=(0.026302151203-0.0224179996428j),，abs(z)=0.03, c=(-0.62772-0.42193j) 
7: z= (-0.62753076355-0.423109283233j),， abs(z)=0.76, c=(-0.62772-0.42193j) 
8: Zz=(-0.412946606356+0.109098183144j),， abs(z)=0.43, c=(-0.62772-0.42193j) 
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我 们 可 以 看 到 ， 每 次 迭代 都 令 abs (z) < 2 为 True。 我 们 可 以 对 该 坐标 欠 代 300 
次 依然 为 True。 我 们 无 法 得 知 需要 多 少 次 迭代 才能 令 条 件 为 False， 可 能 是 个 无 
穷 数 列 。 最 大 迭代 次 数 (maxiter) 会 确保 我 们 不 至 于 永远 迭代 下 去 。 


我 们 在 图 2-2 中 可 以 看 到 前 50 个 检 代 结果 。0+0j 的 结果 数列 ( 带 圆 形 标记 的 实 线 ) 
似乎 每 8 个 迭代 出 现 一 次 循环 , 但 是 每 个 循环 都 跟前 一 个 有 微小 的 区 别 一 一 我 们 无 
法 得 知 该 坐标 是 会 永远 从 代 下 去 , 还 是 将 要 迁 代 很 长 时 间 , 还 是 马上 就 会 超出 边界 
条 件 。 短 划 线 cutoff 表示 +2 的 边界 线 。 








不 同 初始 值 z 的 abs(z) 演 化 结 
果 , c=-0.62772-0.42193j 
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图 2-2 ”Julia 集合 的 两 个 坐标 例 的 演化 结果 


对 于 -0.82+0j 的 结果 数列 ( 带 萎 形 标记 的 短 划 线 )， 我 们 可 以 看 到 第 9 次 选 代 后 
绝对 值 结果 就 超出 了 +2 的 cutoff 边界 线 ， 于 是 迭代 终止。 





2.3 计算 完整 的 Julia 集合 


我 们 在 本 节 分 解 Julia 集合 的 生成 代码 。 我 们 将 在 本 章 以 各 种 方法 分 析 它 。 如 例 2-1 
所 示 ， 在 模块 的 一 开始 , 我们 导入 time 模块 作为 我 们 的 第 一 种 分 析 手 段 并 定义 一 
些 坐标 常量 。 
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例 2-1 定义 空间 坐标 的 全 局 常量 
"""Uulia set generator without optional PIL-basedq image Qrawing""" 


import time 


# area of complex space to investigate 
> A a I Ee A 2 
crealy © imag = =0.62772; = 42193 


为 了 生成 图 像 ， 我 们 创建 两 列 输入 数据 。 第 一 列 zs (复数 z 的 坐标 ) ， 第 二 列 cs 
(复数 的 初始 条 件 )。 这 两 列 数据 都 不 会 发 生变 化 ， 且 cs 列表 可 以 被 优化 成 一 个 c 
常量 。 建立 两 列 输入 的 理由 是 之 后 当 我 们 在 本 章 分 析 RAM 使 用 情况 时 可 以 有 一 些 
看 上 去 合理 的 数据 来 进行 分 析 。 


为 了 创建 zs 列表 和 cs 列表 ,我 们 需要 知道 每 个 z 的 坐标 。 例 2-2 中 ,我 们 用 xcoorq 
和 ycoord 以 及 指定 的 x_step 和 y_step 创建 了 这 些 坐 标 。 这 样 一 个 元 长 的 设 
定 方式 有 助 于 将 代码 移植 到 其 他 工具 (如 numpy) 或 Python 环境 上 ， 因 为 它 将 一 
切 都 明确 定义 下 来 ， 方 便 除 错 。 


例 2-2 建立 坐标 列表 作为 计算 函数 的 输入 


def calc pure python (desired width, max iterations): 





























"""Create a list of complex coordinates (2s) and complex 
parameters (cs), build Julia set, ana display""™" 


x_ step = (float(x2 - x1) / float (desired width)) 
y_step = (float(yl - y2) / float (desired wiqth) ) 
| 
yy 


ycoord = y2 
while ycoord > yl: 
y.append (ycoord) 
ycoord += y_step 
xcoord = xl 
while xcoord < x2: 
x.append (xcoord) 
XCcoord += x_step 
# Build a list of coordinates ana the initial condition for each cell. 
# Note that our initial condition is a constant and could easily be removed; 
# we use it to simulate a real-world scenario with several inputs to 
# our function. 
zs = [] 
cs = [] 
for ycoord in y: 
tor xGOOLA” TN. Xs 
zs.append (complex (xcoord, ycoord)) 
cs.append(complex(c real, c¢c imag)) 
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print "Length of x:", len (x) 

print "Total elements:", len(zs) 

start time = time.time() 

output = calculate z serial purepython (max iterations, zs, cs) 
end time = time.time() 

secs = end time - start time 

print calculate z serial purepython.func name + " took", secs, "seconds" 


# This sum is expected for a 1000“2 grid with 300 iterations. 
# It catches minor errors we might introduce when we're 

# working on a fixed set of inputs. 

assert sum(output) == 33219980 


创建 了 zs 列表 和 cs 列表 后 ,我 们 输出 一 些 有 关 列表 长 度 的 信息 并 用 calculate_ 
z_serial _purepython 计算 output 列表 。 最 后 我 们 对 output 的 内 容 求 和 并 
断言 它 符合 预期 的 输出 值 。Ian 靠 它 来 确保 本 书 此 处 不 至 于 出 现 错误 。 


既然 代码 已 经 确定 , 我 们 只 需要 对 所 有 计算 出 的 值 求 和 就 可 以 验证 函数 是 否 如 我 们 
预期 的 那样 工作 。 这 叫 完 整 性 检查 一 一 当 我 们 对 计算 代码 进行 修改 时 ,很 有 必要 进 
行 这 样 的 检查 来 确保 我 们 没有 破坏 算法 的 正确 性 。 理 想 情况 下 , 我 们 会 使 用 单元 测 
试 且 对 该 问题 的 多 个 不 同 配置 进行 测试 。 


接 下 来 ， 在 例 2-3 中 ,我 们 定义 calculate_z_serial_purepython 图 数 ， 它 
扩展 了 我 们 之 前 讨论 的 算法 。 注 意 ， 我 们 同时 还 在 函数 开头 定义 了 一 个 output 
列表 ， 其 长 度 跟 zs 和 cs 列表 相同 。 你 可 能 会 奇怪 为 什么 我 们 使 用 range 而 不 是 
这 里 就 先 这 样 ， 在 2.9 节 ， 我 们 会 告诉 你 range 有 多 浪费 。 


例 2-3 我 们 的 CPU 密集 型 计算 函数 


def calculate z serial purepython (maxiter, zs, cs): 
"""Calculate output 1ist using Julia update rule"™™"™" 
































xrange 





output = [0] * len(zs) 
for i in range (len(zs)): 
n=0 
z= zs[i] 
CG = CS[i] 


while abs(z) < 2 and n < maxiter: 


v2 
季 让 二 ;二 
output[i] = n 


return output 


现在 我 们 可 以 在 例 2-4 中 调用 整个 计算 逻辑 ,只 要 将 它 包 入 一 个 _main __ 检查 块 ， 
我 们 就 可 以 安全 地 为 某 些 性 能 分 析 手 段 导 入 这 个 模块 而 不 是 直接 开始 计算 。 注 意 ， 
将 输出 画 成 图 像 的 方法 我 们 这 里 没有 显示 出 来 。 
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例 2-4 我 们 代码 的 main 函数 

if name == " main 
# Calculate the Julia set using a pure Python solution with 
# reasonable defaults for a laptop 
calc pure python (desired width=1000, max iterations=300) 


一 旦 我 们 运行 这 段 代码 ， 就 能 够 看 到 一 些 关 于 问题 复杂 度 的 输出 : 








# running the above produces: 

Length of x: 1000 

Total elements: 1000000 

calculate z serial purepython took 12.3479790688 seconds 


图 2-1 所 示 的 伪 灰 阶 图 中 , 高 对 比 的 颜色 变化 给 我 们 一 个 该 函数 运行 快慢 的 直观 感 
受 。 在 此 处 的 图 2-3 中 ,我 们 有 一 个 线性 的 灰 阶 图 : 黑色 是 算得 快 的 地 方 而 白色 是 
计算 开销 大 的 地 方 。 通过 对 同一 数据 的 两 种 表达 , 我 们 能 够 看 到 线性 图 上 丢失 了 很 
多 细节 。 有 时 , 当 我 们 调查 一 个 函数 的 开销 时 , 多 种 表达 方式 有 助 于 我 们 查 清 问题 。 

























































































图 2-3 ”Julia 集合 的 纯 灰 阶 图 
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2.4 ”计时 的 简单 方法 一 一 打印 和 修饰 


运行 例 2-4， 我 们 看 到 的 输出 是 由 代码 中 几 句 Print 语句 生成 的 。 在 Ian 的 笔记 本 
上 用 CPython 2.7 跑 这 段 代码 要 花 大 约 12 秒 。 运 行 时 间 一 般 都 会 有 一 些 波 动 。 你 必 
须 在 计时 的 同时 观察 这 些 正常 的 变化 , 否则 你 可 能 会 误 把 某 个 随机 的 运行 时 间 的 变 
化 当 作 是 由 于 某 次 代码 的 改进 造成 的 。 


你 的 计算 机 在 运行 你 的 代码 时 还 会 进行 其 他 任务 ， 比 如 访问 网 络 、 磁 盘 或 RAML， 
这 些 因 素 都 会 导致 程序 运行 时 间 的 变化 。 

Ian 的 笔记 本 是 一 台 Dell E6420, 拥有 一 个 Intel Core I7-2720QM 的 CPU (2.20GHz， 
6MB 缓存 ，4 核 ) 以 及 8GB 的 RAM， 操 作 系统 是 Ubuntu 13.10。 




















在 calc_pure_python 中 【〈 例 2-2)， 我 们 能 看 到 一 些 print 语句 。 这 是 最 简单 的 
在 函数 访 训 出 量 一 段 代 码 执 行 时 间 的 方法 。 这 个 基本 方法 既 快 且 脏 ,是 在 你 刚 开始 
着 手 调 查 代码 时 非常 有 用 的 手段 。 


在 代码 除 错 和 性 能 分 析 上 使 用 print 语句 是 常用 的 手段 。 虽 然 它 很 快 就 会 变 得 无 
法 管理 , 但 适用 于 简短 的 调查 。 用 完 它们 以 后 要 记得 收拾 干净 ,否则 它们 会 搞 乱 你 
的 stdout。 


一 个 稍微 干净 一 点 的 方法 是 使 用 修饰 器 一 一 在 需要 调查 的 函数 上 面 增加 一 行 代码 。 
我 们 的 修饰 器 十 分 简单 ， 仅 仅 复制 了 print 语句 的 功能 。 后 面 我 们 会 让 它 变 得 更 
加 高 级 。 


在 例 2-5 中 ， 我 们 定义 了 一 个 新 函数 timefn， 它 以 一 个 函数 fn 为 参数 。 它 的 内 
黄 函 数 measure_time 接受 *args (数量 可 变 的 位 置 参数 ) 以 及 **kwargs ( 数 
量 可 变 的 键 值 对 参数 ) 等 参数 并 将 其 传人 fn 执行 。 在 执行 fn 前 后 ， 我 们 抓 取 
time .time () 并 将 结果 和 fn.func_name 一 起 打印 出 来 。 使 用 这 个 修饰 器 的 开 
销 很 小 , 但 如 果 你 调用 上 千 万 次 fn, 开销 就 会 变 得 引 人 注 意 。 我 们 用 @wraps (fn) 
将 函数 名 和 docstring 暴露 给 fn 的 调用 者 (否则 调用 者 看 到 的 将 是 修饰 器 自身 的 函 
数 名 和 docstring， 而 不 是 被 修饰 的 函数 的 )。 


例 2-5 定义 一 个 修饰 器 来 自动 测量 时 间 


from functools import wraps 















































































































































def timefn (fn): 
@Qwraps (fn) 
def measure time(*args, **kwargs): 
tl = time.time() 
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result = fn(*args, **kwargs) 
t2 = time.time() 
print ("Gtimefn:" + fn.func name + " took " + str(t2 - tl) + " seconds") 
return result 
return measure time 


Qtimefn 
def calculate z serial purepython (maxiter, zs, cs): 


当 我 们 运行 这 个 版 本 的 代码 时 (之 前 的 print 语句 依然 保留 ), 我 们 会 看 到 修饰 器 
打印 的 执行 时 间 要 略 快 于 calc_pure_python 打印 的 时 间 。 这 是 由 于 函数 的 调用 
带 来 了 额外 开销 (差异 非常 小 ): 

Length of x: 1000 

Total elements: 1000000 


@timefn:calculate z serial purepython took 12.2218790054 seconds 
calculate z serial purepython took 12.2219250043 seconds 


备 忘 

额外 的 分 析 信 息 不 可 避免 地 降低 了 代码 的 执行 速度 一 一 菜 些 性 能 分 
析 选 项 非常 详细 以 至 于 带 来 了 巨大 的 性 能 代价 。 分析 信息 的 细节 程度 
和 运行 速度 是 你 必须 要 进行 权衡 的 。 








我 们 可 以 用 timeit 模块 作为 另 一 种 测量 执行 速度 的 方法 。 通 常 来 说 ， 你 会 在 解决 问 
题 的 过 程 中 用 它 来 为 各 种 简单 的 语句 计时 。 
警告 
注意 ，timeit 模块 暂时 禁用 了 垃圾 收集 器 。 如 果 你 的 操作 会 调用 
到 垃圾 收集 器 ， 那 么 它 有 可 能 影响 到 你 实际 操作 的 速度 。 更 多 信息 
请 参见 Python 文档 : http://bit.ly/timeit_doc。 


你 可 以 从 命令 行 运行 timeit 如 下 : 


$ python -m timeit -~-n 5 -r 5 -s "import julial" 
"julial.calc pure python(desired width=1000, 
max iterations=300)" 


注意 你 必须 以 -s 命令 在 设置 阶段 导入 julial 模块 ， 因 为 calc_pure_python 
来 自 那个 模块 。timeit 有 一 些 合理 的 默认 值 适用 于 一 段 简短 的 代码 , 但 对 于 要 长 
期 运行 的 代码 来 说 ， 最 好 指定 循环 次 数 (-n 5) 以 及 重复 次 数 (-r 5)。timeit 
会 对 语句 循环 执行 n 次 并 计算 平均 值 作为 一 个 结果 ， 重 复 + 次 并 选 出 最 好 的 那个 


十 四 
结果 。 
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如 果 我 们 不 指定 -n 和 -r 运行 timeit， 默认 是 循环 10 次 重复 5 次 ， 需 要 6 分 钟 。 
改变 默认 值 可 以 让 你 更 快 获得 结果 。 


我 们 只 关注 最 好 的 那个 结果 , 平均 值 以 及 最 差 结果 可 能 是 由 于 其 他 进程 的 影响 。 选 
择 循环 5 次 重复 5 次 应 该 能 给 我 们 一 个 较为 公正 的 结果 : 

5 loops, best of 5: 13.1 sec per loop 
试 着 多 运行 几 次 , 看 看 我 们 会 不 会 得 到 不 同 的 结果 一 一 你 可 能 需要 更 多 的 重复 次 数 
来 获得 一 个 稳定 的 最 佳 结果 时 间 。 在 这 一 点 上 不 存在 “正确 ”的 配置 ， 所 以 如 果 你 
发 现 你 的 计时 结果 变动 范围 很 广 , 你 就 要 选择 更 高 的 重复 次 数 , 直到 获得 稳定 的 最 
终结 果 。 


我 们 的 结果 显示 调用 calc_pure_python 的 总 体 开销 是 13.1 秒 〈 最 佳 情 况 ) ， 而 
etimefn 修饰 器 测算 的 单 次 调用 calculate z serial purepython 耗 时 
12.2 秒 。 中 间 的 差别 主要 是 用 于 创建 zs 和 cs 列表 的 时 间 。 


在 IPython 内 部 ， 我 们 可 以 用 同样 的 方式 使 用 stimeit 魔法 函数 。 如 果 你 在 
IPython 中 用 互动 的 方式 开发 你 的 代码 且 函 数 在 本 地 名 字 空 间 ( 可 能 是 因为 你 正在 
使 用 $run)， 那 么 你 可 以 用 : 


stimeit calc pure python(desired width=1000, max iterations=300) 


还 有 一 点 值得 考虑 的 是 一 台 计 算 机 上 的 负载 变化 。 很 多 后 台 运 行 的 任务 (如 
Dropbox、 备 份 等 ) 都 会 随机 影响 CPU 和 磁盘 资源 。 网 页 上 的 脚本 也 会 导致 不 可 预 
测 的 资源 使 用 。 图 2-4 显示 了 我 们 刚刚 进行 的 计时 过 程 中 某 个 CPU 的 使 用 率 达 到 
了 100%， 机 器 中 的 其 他 核心 都 在 轻松 处 理 其 他 的 任务 。 
















































































CPU History 








3 20 10 0 
| cpul 6.1% 到 CPU2 9.9% 大 国 CPU3 3.0% 大国 cpPu4 4.9% 
大 国 CPU5 0.0% 夯 国 CPU6 0.0% 国王 CPU7 1.0% 国志 CPU8 0.0% 











2-4 Ubuntu 的 系统 监视 器 显示 了 当 我 们 对 程序 计时 的 时 候 后 台 CPU 的 使 用 情况 





系统 监视 器 会 时 不 时 地 显示 这 人 台 机 器 上 的 活动 峰值 。 有 必要 检查 会 不 会 有 其 他 事件 
发 生 影响 了 你 的 关键 资源 (CPU、 磁 盘 、 网 络 )。 
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2.5 用 UNIX 的 time 命令 进行 简单 的 计时 


现在 让 我 们 脱离 Python 使 用 类 UNIX 操作 系统 的 标准 系统 功能 。 下 面 这 条 命令 会 
记录 程序 执行 所 耗费 的 的 各 方面 时 间 ， 且 不 在 意 代码 的 内 部 结构 : 

$ /usr/bin/time -p Python julial nopil.py 

Length of x: 1000 

Total elements: 1000000 

calculate z serial purepython took 12.7298331261 seconds 

real 13.46 

user 13.40 

sys 0.04 


注意 我 们 特地 使 用 了 /usr/bin/time 而 不 是 time， 也 就 是 说 我 们 使 用 的 是 系统 
命令 的 time 而 不 是 那个 更 加 简单 而 没 用 的 shell 内 建 版 本 的 time。 如 果 你 用 time 
--verbose， 结 果 得 到 了 一 个 错误 ， 那 么 你 使 用 的 可 能 就 是 shell 内 建 的 time 而 
不 是 系统 命令 的 time。 


通过 使 用 -p 开关 ， 我 们 得 到 了 3 个 结 

。 real 记录 了 整体 的 耗 时 。 

。 user 记录 了 CPU 花 在 任务 上 的 时 间 ， 但 不 包括 内 核 函 数 耗费 的 时 间 。 
。 sys 记录 了 内 核 函 数 耗费 的 时 间 。 


对 user 和 sys 相 加 就 得 到 了 CPU 总 共 花 费 的 时 间 。 而 这 个 时 间 和 real 的 差 则 
有 可 能 是 花费 在 等 待 IJO 上 ， 也 可 能 是 你 的 系统 正在 忙 着 运行 其 他 任务 因此 影响 了 
尔 的 测量 。 


time 并 不 是 专 为 Python 脚本 使 用 的 。 它 还 包括 了 启动 python 解释 器 的 时 间 ， 如 
果 你 会 启动 很 多 新 进程 (而 不 是 一 个 长 期 运行 的 单一 进程 ), 这 个 时 间 可 能 会 很 长 。 
如 果 你 会 经 常 跑 一 些 临时 脚本 ， 它 们 的 启动 时 间 占 了 整体 运行 时 间 的 很 大 一 部 分 ， 
那么 time 更 适合 测量 这 种 情况 。 


我 们 可 以 打开 --verbose 开关 来 获得 更 多 输出 信息 : 


$ /usr/pin/time --verbose python julial nopil.py 

Length of x: 1000 

Total elements: 1000000 

calculate z serial purepython took 12.3145110607 seconds 
Command being timed: "Python julial nopil.py" 
User time (seconds): 13.46 
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System time (seconds): 0.05 

Percent of CPU this job got: 99% 

Elapsed (wall clock) time (h:mm:ss or m:ss): 0:13.53 
Average shared text size (kbytes): 0 
Average unshared data size (kbytes): 0 
Average stack size (kbytes): 0 

Average total size (kbytes): 0 

Maximum resident set size (kbytes): 131952 
Average resident set size (kbytes): 0 
Major (requiring I/0) page faults: 0 

Minor (reclaiming a frame) page faults: 58974 
Voluntary context switches: 3 

Involuntary context switches: 26 

Swaps: 0 

File system inputs: 0 

File system outputs: 1968 

Socket messages sent: 0 

Socket messages received: 0 

Signals delivered: 0 

Page size (bytes): 4096 

Exit status: 0 


这 里 最 有 用 的 指标 可 能 是 Major (requiring I/0) page faults， 因 为 它 指 
示 了 操作 系统 是 否 由 于 RAM 中 的 数据 不 存在 而 需要 从 磁盘 上 读 取 页 面 。 而 这 会 
来 速度 上 的 惩罚 。 


我 们 的 例子 中 对 于 代码 和 数据 的 需求 较 少 , 所 以 不 会 发 生 内 存 缺 页 错误 。 如 果 你 有 
一 个 内 存 密集 型 进程 ， 或 多 个 需要 分 配 和 使 用 大 量 RAM 的 进程 ， 你 就 会 发 现 这 个 
命令 可 以 告诉 你 哪个 进程 会 因为 一 部 分 RAM 被 交换 到 磁盘 上 这 一 额外 的 操作 系统 
级 别 的 磁盘 访问 而 导致 速度 的 下 降 。 


2.6 ”使 用 cProfile 模块 


cProfile 是 一 个 标准 库 内 建 的 分 析 工 具 。 它 钧 人 CPython 的 虚拟 机 来 测量 其 每 一 
个 函数 运行 所 花费 的 时 间 。 这 一 技术 会 引入 一 个 巨大 的 开销 , 但 你 会 获得 更 多 的 信 
息 。 有 时 这 些 额 外 的 信息 会 给 你 的 代码 带 来 令 人 惊讶 的 发 现 。 


cProfile 是 标准 库 内 建 的 三 个 分 析 工 具 之 一 , 另外 两 个 是 hotshot 和 profile。 
hotshot 还 处 于 实验 阶段 ，profile 则 是 原始 的 纯 Python 分 析 器 。cProfile 具 
有 跟 Profile 一 样 的 接口 ， 且 是 默认 的 分 析 工 具 。 如 果 你 对 这 些 库 的 历史 感 兴 趣 ， 

你 可 以 去 看 一 下 Armin Rigo 在 2005 年 要 求 将 cProfile 包含 进 标准 库 的 请 求 
(http://bit.ly/cProfile_ request) 。 























井 
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分 析 工 作 的 一 个 好 的 实践 是 在 开始 分 析 之 前 先 对 你 的 代码 各 部 分 的 运行 速度 进行 
假设 。Ian 喜欢 将 有 问题 的 代码 打印 出 来 并 加 以 标注 。 提 前 生成 一 个 假设 意味 着 有 
可 能 测 出 你 错 的 有 多 离谱 〈 而 且 真 的 会 测 出 ! ) 并 提升 你 对 于 某 种 编程 风格 的 直觉 。 











警告 
~ 永远 不 要 忽视 靠 直觉 进行 的 性 能 分 析 (虽然 你 一 定 会 犯错 ! )。 在 
| /人 \ 分 析 前 先进 行 假设 是 绝对 值得 的 ， 因 为 这 样 可 以 帮助 你 学 习 如 何 
定位 你 代码 中 可 能 有 问题 的 地 方 ， 而 且 你 应 该 始终 用 证 据 来 证 明 
你 的 选择 。 
始终 基于 你 的 测量 结果 ， 用 一 些 既 快 且 脏 的 分 析 手 段 确保 你 正在 分 析 正 确 的 地 方 。 
没有 什么 比 在 聪明 地 优化 了 一 段 代 码 之 后 (可 能 过 了 几 小 时 或 几 天 ) 才 意 识 到 你 其 
实 漏 掉 了 进程 最 慢 的 部 分 且 根 本 没有 找到 真正 的 问题 所 在 更 令 人 羞愧 的 了 。 
那么 我 们 的 假设 是 什么 呢 ? 我 们 知道 calculate _z_serial Purepython 可 
能 是 代码 最 慢 的 部 分 。 我们 在 那个 函数 里 做 了 大 量 的 解 引用 并 多 次 调用 基本 的 算术 
操作 和 abs 函数 。 这 些 可 能 都 是 耗 CPU 资源 的 大 户 。 
这 里 ， 我 们 用 cProfile 模块 运行 我 们 的 代码 的 一 个 变种 。 其 输出 是 格式 化 的 ， 
方便 我 们 搞 清 去 哪里 做 进一步 分 析 。 
-s cumulative 开关 告诉 cProfile 对 每 个 函数 累计 花费 的 时 间 进 行 排序 ， 这 
能 让 我 们 看 到 代码 最 慢 的 部 分 。cProfile 会 将 输出 直接 打印 到 屏幕 


$ Python -m cProfile -s cumulative julial nopil.py 





















































36221992 function calls in 19.664 seconds 
Ordered by: cumulative time 


Ncalls tottime percall cumtime percall filename:lineno (function) 
J] 0.034 0.034 19.664 19.664 julial nopil.py:1 (<module>) 
1 0.843 058437 L9630', :TL9w630. Julial nopil. By:23 
(calc pure python) 
1 T4121 T4121 T8627 10.627 julial nopilpyr9 
(calculate z serial purepython) 


34219980 4.487 0.000 4.487 0.000 {abs} 
2002000 UsT50 0.000 O0150 0.000 {method 'append' of 'list' objects} 
1 0.019 O02.9 0.019 0.019 {range} 
1 0.010 0.010 0.010 0.010 {sum} 
2 0.000 0.000 0.000 0.000 {time.time} 
4 0#000 0.000 0.000 0.000 {len} 
本 0.000 0.000 0.000 0.000 {method 'qisable' of 


'_lsprof.Profiler' objects} 
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对 累计 时 间 排 序 能 告诉 我 们 大 部 分 的 执行 时 间 花 在 了 哪 。 这 个 结果 显示 出 在 仅仅 
19 秒 的 时 间 里 一 共 发 生 了 36 221 992 次 函数 调用 (这 个 时 间 包 括 了 使 用 cProfile 
的 开销 ) 。 之 前 我 们 的 代码 需要 13 秒 执行 时 间 一 一 为 了 测量 每 个 函数 执行 所 花费 的 
时 间 ， 我 们 增加 了 一 个 5 秒 的 惩罚 。 

我 们 可 以 看 到 第 一 行 ，julial _cprofile.py 的 代码 入 口 点 总 共 花 费 了 19 秒 。 
这 是 通过 main 调用 calc pure python。ncalls 为 1, 意味 着 这 行 仅 执行 
了 一 次 。 




















在 calc _pure python 内 部 , calculate z serial purepython 的 调用 花 
费 了 18.6 秒 。 这 两 个 函数 都 只 执行 了 一 次 。 我 们 可 以 推测 出 有 大 约 1 秒 的 时 间 花 
在 了 calc pure python 内 部 , 是 调用 calculate z serial purepython 
以 外 的 代码 。 不 过 我 们 用 cProfile 没 法 知道 是 哪些 行 花 掉 了 这 些 时 间 。 


在 calculate _z_serial purepython 内 部 , 花 在 (那些 没有 调用 其 他 函数 的 ) 
代码 行 上 的 时 间 是 14.1 秒 。 该 函数 调用 了 34 219 980 次 abs ,总共 花 了 4.4 秒 , 另 
外 还 有 其 他 一 些 不 怎么 花 时 间 的 调用 。 


那个 {abs} 是 什么 东西 ?这 一 行 测量 的 是 calculate z serial purepython 
对 abs 函数 的 调用 。per-call 的 代价 可 以 忽略 (0.000 秒 ) ，34219980 次 调用 总 共 花 
了 4.4 秒 。 我 们 无 法 预测 会 调用 多 少 次 abs， 因 为 Julia 函数 具有 不 可 预测 的 动态 
特性 (这 也 是 为 什么 对 它 的 分 析 如 此 有 趣 )。 


我 们 只 能 说 它 最 少 会 被 调用 1 000 000 次 ， 因为 我 们 需要 计算 1000 x 1000 个 像素 
点 。 它 最 多 会 被 调用 300 000 000 次 ， 因 为 我 们 对 1 000 000 个 像素 点 最 多 进行 300 
次 迭代 。 所 以 三 千 四 百 万 次 调用 仪 是 最 差 情 况 的 10%。 
如 果 我 们 看 原始 的 灰 阶 图 (图 2-3)， 并 在 想象 中 将 白色 部 分 挤 压 进 角落 , 我们 可 以 
估算 出 耗 时 的 白色 区 域 大 概 占 了 全 图 的 10%。 
接 下 来 的 分 析 输 出 ，{method 'append' of 'list' objects}， 表示 了 对 
2 002 000 个 列表 项 的 创建 。 
问题 
为 什么 是 2 002 000 个 项 目 ? 在 你 读 下 去 之 前 ， 先 思考 一 下 总 共 需 要 
创建 多 少 个 项 目 。 







































































2 002 000 个 列表 项 的 创建 发 生 在 calc_pure_python 的 设置 阶段 。 
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列表 zs 和 cs 分 别 有 1000 x1000 个 项 目 ， 而 它们 是 根据 1000 个 x 坐标 和 1000 
个 y 坐标 创建 的 。 所 以 总 共 要 调用 2 002 000 次 append。 


需要 注意 的 是 cProfile 的 输出 并 不 以 父 函 数 排序 ， 它 总 结 了 执行 代码 块 的 全 部 
函数 。 用 cProfile 很 难 搞 清 楚 函 数 内 的 每 一 行 发 生 了 什么 ， 因 为 我 们 只 拿 到 了 
函数 自身 调用 的 分 析 信息 ， 而 不 是 函数 内 的 每 一 行 。 

在 calculate z serial purepython 内 ,我 们 可 以 对 {abs} 和 {range} 进 行 分 


析 , 这 两 个 函数 总 计 花 了 大 约 4.5 秒 ,我 们 知道 calculate z serial purepython 
自身 总 共 花 费 了 18.6 秒 。 


性 能 分 析 输 出 的 最 后 一 行 提 到 了 1sProf， 这 是 本 工具 进化 到 cProfile 之 前 的 
原始 名 字 ， 可 以 忽略 。 


为 了 获得 对 cProfile 结果 的 更 多 控制 ， 我 们 可 以 生成 一 个 统计 文件 然后 通过 
Python 进行 分 析 : 
$ Python -m cProfile -~o profile.stats julial.py 


我 们 可 以 这 样 将 其 调 人 Python， 它 会 输出 跟 之 前 一 样 的 累计 时 间 报 告 : 



































In [1]: import Pstats 

In [2]: p = pstats.Stats ("profile.stats") 

In [3]: p.sort stats ("cumulative") 

Out[3]: <pstats.Stats instance at Ox1l77dcf8> 
In [4]: p.print stats () 


Tue Jan 7 21:00:56 2014 profile.stats 





36221992 function calls in 19.983 seconds 


Ordered by: cumulative time 


ncalls tottime percall cumtime percall filename:lineno (function) 
1 0.033 0.033 19.983 19.983 julial nopil.py:1 (<module>) 
1 0.846 0.846 19.950 19.950 julial nopil.py:23 
(calc pure python) 
1 13.585 13.585 18.944 18.944 julial nopil.py:9 
(calculate z serial purepython) 


34219980 5.340 0.000 5.340 0.000 {abs} 
2002000 O050Q 0.000 O0150 0.000 {method 'append' of 'list' objects} 
1 0.019 0.019 0:019 0.019 {range} 
1 0.010 OQL0 0.010 0.010 {sum} 
2 0.000 0.000 0.000 0.000 {time.time} 
4 0.000 0.000 0.000 0.000 {len} 
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业 0.000 0.000 0.000 0.000 {method 'disable' of 
'_lsprof.Profiler' objects} 


为 了 追溯 我 们 分 析 的 函数 ,我 们 可 以 打印 调用 者 的 信息 。 在 下 面 的 两 个 列表 中 ,我 
们 可 以 看 到 calculate z serial purepython 是 最 耗 时 的 函数 , 且 只 在 一 个 
地 方 被 调用 。 如 果 它 被 多 个 地 方 调用 , 这 些 列表 也 许 能 帮助 我 们 定位 到 最 耗 时 的 父 
函数 : 


























In [5]: p.print callers() 
Ordered by: cumulative time 


Function was called by... 

ncalls tottime cumtime 
julial nopil.py:1 (<module>) <— 
julial nopil.py:23(calc pure python) < 一 1 0.846 19.950 


julial nopil.py:1 (<module>) 

julial nopil.py:9(calculate z serial purepython) <- 1 13.585 18.944 
julial nopil.py:23 
(calc pure python) 

{abs} <- 34219980 5.340 5.340 
julial nopil.py:9 
(calculate z serial purepython) 

{method ‘'append' of 'list' objects} <- 2002000 Q'S5:0 0..150 
julial nopil.py:23 
(calc pure python) 

{range} < 一 1 0s09 0.019 
julial nopil.py:9 
(calculate z serial purepython) 

{sum} < 一 1 0.010 0.010 
julial nopil.py:23 
(calc pure python) 

{time .time} <— 2 0.000 0.000 
julial nopil.py:23 
(calc pure python) 

{len} < 一 2 0.000 0.000 
julial nopil.py:9 
(calculate z serial purepython) 

2 0.000 0.000 

julial nopil.py:23 
(calc pure python) 

{method "qisable' of ' lsprof.Profiler' objects} <- 


我 们 还 可 以 反 过 来 显示 哪个 函数 调用 了 其 他 函数 : 


In [6]: p.print callees() 
Ordered by: cumulative time 


Function called... 
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ncalls tottime cumtime 
julial nopil.py:1 (<module>) 一 > 1 0.846 19.950 
julial nopil.py:23 
(calc pure python) 
julial nopil.py:23(calc pure python) 一 > 1 .3589 L8944 
julial nopil.py:9 
(calculate z serial purepython) 
2 0.000 0.000 
{len} 
2002000 0.150 0.150 
{method ‘'append' of 'list' 
objects} 
1 0.010 0.010 
{sum} 
2 0.000 0.000 
{time .time} 
julial nopil.py:9(calculate z serial purepython) -> 34219980 5.340 5.340 


{abs} 
2 0.000 0.000 
{len} 
1 Ow OL9 QO:0L9 
{range} 
{abs} 一 > 
{method ‘'append' of 'list' objects} 一 > 
{range} 一 > 
{sum} Egy 
{time.time} 一 > 
{len} 二 


{method 'disable' of ' lsprof.Profiler' objects} -> 
cProfile 输出 的 信息 很 多 , 你 需要 有 一 个 副 屏 幕 才能 避免 整 字 换行 。 它 是 内 建 的 
用 于 快速 定位 瓶颈 的 便利 工具 。 然 后 我 们 在 本 章 后 面 讨论 的 line_profiler.、 
heapy 和 memory_profiler 等 工具 才能 帮助 你 深入 定位 到 需要 你 加 以 注意 的 具 
体 代 码 行 。 
































2.7 用 runsnakerun 对 cProfile 的 输出 进行 可 视 化 


runsnake 是 一 个 可 视 化 工具 ， 用 于 显示 cProfile 创建 的 统计 文件 
要 看 它 生 成 的 图 像 就 可 以 快速 意识 到 哪个 函数 开销 最 大 。 


运行 runsnake 可 以 让 你 从 上 层 了 解 一 个 cProfile 统计 文件 的 内 容 ， 特 别 是 当 
你 在 调查 一 个 陌生 而 又 庞大 的 代码 库 时 。 它 会 让 你 感觉 到 应 该 将 注意 力 集中 在 哪些 
区 域 。 它 可 能 会 揭示 一 些 你 根本 就 没有 意识 到 会 有 问题 的 区 域 ， 帮助 你 定位 出 潜在 
的 快速 优化 机 会 。 














你 只 需 
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你 也 可 以 在 组 内 讨论 代码 性 能 时 使 用 它 ， 因 为 它 的 结果 很 容易 用 来 讨论 。 
输入 命令 pip install runsnake 来 安装 funsnake。 


注意 它 的 安装 需要 wxPython， 而 在 一 个 virtualenvy 下 安装 它 会 非常 痛苦 。 仪 
仅 为 了 分 析 一 个 统计 文件 ，Ian 不 止 一 次 地 选择 宁可 在 全 局 环境 下 安装 它 ， 也 不 原 
意 尝 试 让 它 在 virtualenv 下 跑 起 来 。 


图 2-5 显示 了 之 前 cProfile 的 数据 。 图 形 化 的 显示 可 以 帮助 我 们 更 快 地 了 解 
calculate z serial purepython 花费 了 最 多 的 时 间 ， 且 只 有 很 小 一 部 分 执 
行 时 间 是 在 调用 其 他 函数 (abs 是 其 中 唯一 一 个 比较 花 时 间 的 ) 。 你 可 以 看 到 你 不 
需要 花 时 间 去 调查 设置 阶段 ， 因 为 大 多 数 执行 时 间 是 在 计算 阶段 。 


在 runsnake 中 点 击 函数 可 以 显示 出 复杂 的 磐 套 调用 。 在 你 跟 组 员 分 析 性 能 时 ， 
这 一 功能 是 无 价 之 宝 。 





























2-5 用 runsnakerun 展示 cProfile 的 分 析 结 果 


2.8 用 line_profiler 进行 逐 行 分 析 

根据 Ian 的 观点 ,Robert Ker 的 1ine_profiler 是 调查 Python 的 CPU 密集 型 性 
能 问题 最 强大 的 工具 。 它 可 以 对 函数 进行 逐 行 分 析 ， 你 应 该 先 用 cProfile 找到 
需要 分 析 的 函数 ， 然 后 用 line_profiler 对 函数 进行 分 析 。 
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当 你 修改 你 的 代码 时 , 值得 打印 出 这 个 工具 的 输出 以 及 代码 的 版 本 ， 就 拥有 


一 个 代码 变化 (无 论 有 没有 用 ) 的 记录 ， 





时 ， 不 要 依赖 你 的 记忆 。 








修饰 器 


被 选 函数 每 一 行 花费 的 CPU 时 间 以 及 其 
一 一 备 忘 








行 时 参数 -1 代表 和 逐 行 分 析 而 不 是 逐 函 数 分 析 ，-v 用 于 显示 输出 。 没 有 -Vv 
ee lprof 的 输出 文件 ， 回 头 你 可 以 用 1ine_profiler 模块 对 其 进 
遍 我 们 的 CPU 密集 型 函数 。 


析 。 例 2-6 中 ， 我 们 会 完整 运 


例 2-6 运行 kernprof 逐 行 
$ kernprof -1 


支行 


运行 一 





用 修饰 器 (eprofile) 标记 选中 的 函数 。 用 kernprof .py 脚本 运 





输入 命令 pip install line_profiler 来 安装 line profiler。 


让 你 可 以 随时 查阅 。 当 你 在 进行 逐 行 改变 
行 你 的 代码 ， 
他 信息 就 会 被 记录 下 来 。 
器 会 影响 你 的 单元 测 


ne 
| 试 , 除非 你 创建 一 个 伪 修饰 器 一 一 


见 2.13 节 中 的 No-op 的 aprofile 


， 你 会 


行 分 


行 分 析 被 修饰 函数 的 CPU 开销 


-V julial lineprofiler.py 


Wrote profile results to julial lineprofiler.py.lprof 


Timer unit: le-06 s 

















File: julial lineprofiler.py 
Function: calculate z_serial purepython at line 9 
Total time: 100.81 s 
Line # Hits Per Hit $% Time Line Contents 
9 @Qprofile 
10 def calculate z serial purepython (maxiter, 
zy CH): 
jl "nCalculate output list using 
Julia update rule"™"" 
12 6870.0 0.0 output = [0] * len(zs) 
下 总 1000001 0.8 0.8 for i in range(len(zs)): 
14 1000000 0.8 0.8 n=0 
L5 1000000 0.8 0.8 z= zs[i] 
16 1000000 0.8 0.8 © CsSTi) 
LE 池 34219980 a 36%2 while es ) < 2 and n < maxiter: 
18 33219980 LQ 3256 PA te 
19 33219980 0.8 2 n += 1 
20 1000000 059 0 .9 output[i] = n 
21 1 4.0 0.0 return output 
肖 汗 1 | 
步 社区 会 员 woshigedushuren(131200209 半 于 右 办 村 | 闹 绒 ” 





引入 kernprof .py 导致 了 额外 的 运行 时 间 。 本 例 的 calculate z_serial_ 
purepython 花费 了 100 秒 , 远 高 于 使 用 print 语句 的 13 秒 和 cProfile 的 19 
秒 。 获 得 的 好 处 则 是 我 们 现在 得 到 了 一 个 函数 内 部 每 一 行 花费 时 间 的 分 析 结 


sTime 列 最 有 用 一 一 我 们 可 以 看 到 36% 的 时 间 花 在 了 while 测试 上 。 不 过 我 们 不 
知道 是 第 一 条 语句 (abs (z) < 2) 还 是 第 二 条 语句 (n < maxiter) 更 花 时 间 。 
循环 内 ， 我 们 可 以 看 到 更 新 z 也 颇 花 时 间 。 甚 至 n += 1 都 很 贵 ! 每 次 循环 时 ， 
Python 的 动态 查询 机 制 都 在 工作 , 即使 每 次 循环 中 我 们 使 用 的 变量 都 是 同样 的 类 型 
一 一 在 这 一 点 上 ， 编 译 和 类 型 指定 (第 7 章 ) 可 以 给 我 们 带 来 巨大 的 好 处 。 创 建 
output 列表 以 及 第 20 行 上 的 更 新 相对 整个 while 循环 来 说 相当 便宜 。 


对 while 语句 更 进一步 的 分 析 明 显 就 是 将 两 个 判断 拆 开 。Python 社区 中 有 一 些 讨 
论 关于 是 否 需要 重 写 .Pyc 文件 中 对 于 一 行 语句 中 多 个 部 分 的 具体 信息 ， 但 目前 还 
没有 一 个 工具 提供 比 1ine_profiler 更 细 粒 度 的 分 析 。 


在 例 2-7 中 ， 我 们 将 while 语句 分 拆 成 多 个 语句 。 这 一 额外 的 复杂 度 会 增加 函数 的 
运行 时 间 , 因为 我 们 有 了 更 多 行 代码 需要 执行 , 但 它 可 能 可 以 帮助 我 们 了 解 这 部 分 
代码 的 开销 。 

问题 

在 你 看 代码 之 前 ， 你 是 否认 为 我 们 可 以 用 这 种 方式 了 解 基本 操作 的 
开销 ? 其 他 因素 会 不 会 让 分 析 变 得 更 复杂 ? 










































































例 2-7 将 组 合式 while 语句 拆 成 单个 语句 来 记录 每 一 部 分 的 开销 


$ kernprof.py -1 -v julial lineprofiler2.py 


Wrote profile results to julial lineprofiler2.py.1prof 
Timer unit: le-06 s 


File: julial lineprofiler2.py 
Function: calculate z serial purepython at line 9 
Total time: 184.739 s 











Line # Hits Per Hit % Time Line Contents 
@profile 

10 def calculate z serial purepython (maxiter, 
ZS Ge) 

ol """Calculate output list using 

Julia update rule"™""" 
正之 1 6831.0 O00 output = [0] * len (zs) 
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七 : 


于 3 1000001 0.8 0.4 for i in range (len(zs)): 
14 1000000 0.8 0.4 站- 三 :0 
二 8 1000000 Us 055 2 
16 1000000 0.8 0 .4 c-= Gasil[zl] 
17 34219980 0.8 14.9 while True: 
18 34219980 1.0 19%0 not yet escaped =abs(z) <2 
19 34219980 (Ol: 15.5 iterations left =n< maxiter 
20 34219980 0.8 1 .55 if not yet escaped 
and iterations lef 
21 33219980 0 I 8 诡 二 2 必 
22 33219980 Us 1553 n += 1 
23 else: 
24 1000000 0.8 0.4 break 
25 1000000 05.9 0.5 outputl[i]’ = n 
26 下 besd 0.0 return output 


这 个 版 本 花 了 184 秒 执行 ， 而 之 前 的 仅 100 秒 。 其 他 因素 磅 颁 让 分 析 变 得 更 复杂 。 











本 例 中 每 一 条 额外 语句 都 执行 了 34219980 次 ， 拖 慢 了 代码 。 如 果 不 是 通 ; 




















kernprof .py 调查 了 每 行 的 影响 , 我 们 可 能 会 在 缺乏 证 据 的 情况 下 得 出 是 其 
因 导 致 了 变 慢 的 结论 。 


此 时 有 必要 回 到 之 前 的 timeit 技术 来 测试 每 个 单独 表达 式 的 开销 : 


>>> z = 0+0j # a point in the middle of our image 
>>> Stimeit abs(z) < 2 # tested inside IPython 





























10000000 loops, best of 3: 119 ns per loop 
>>> n=1 
>>> maxiter = 300 


>>> $timeit n < maxiter 


10000000 loops, best of 3: 77 ns Per loop 





也 


过 
原 


从 这 一 简单 分 析 上 来 看 ， 对 n 的 逻辑 测试 的 速度 几乎 是 abs 函数 调用 的 两 售 。 既 
然 Python 语句 的 评估 次 序 是 从 左 到 右 且 支持 短路 ， 那 么 我 们 应 该 将 最 便宜 的 测试 
放 在 左边 。 每 301 次 测试 就 有 1 次 n < maxiter 的 值 为 False， 这 样 Python 就 























不 必 评 估 ana 操作 符 右边 的 语句 了 。 


























在 评估 前 我 们 永远 无 法 知道 abs (z) < 2 的 值 何 时 为 False， 而 我 们 之 前 对 复数 
平面 的 观察 告诉 我 们 300 次 迭代 中 大 约 10% 的 可 能 是 True。 如 果 我 们 想 要 更 进 一 


步 了 解 这 段 代 码 的 时 间 复 杂 度 ， 有 必要 继续 进行 数值 分 析 。 不 过 在 目前 的 情况 下 ， 








我 们 只 是 想 要 看 看 有 没有 快速 提高 的 机 会 。 








我 们 可 以 做 一 个 新 的 假设 声明 ,“ 通 过 交换 while 语句 的 次 序 , 我 们 会 获得 一 个 可 
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靠 的 速度 提升 。” 我们 可 以 用 kernprof .py 测试 这 个 假设 ,但 是 其 额外 的 开销 
可 能 会 给 我 们 的 结果 带 来 太 多 噪声 。 所 以 我 们 用 一 个 之 前 版 本 的 代码 ， 测 试 比较 
while abs(z) <2 and n < maxiter: 和 while n < maxiter and abs (z) 


< 2: 之 间 的 区 别 。 


结果 显示 出 大 约 0.4 秒 的 稳定 提升 。 这 一 结果 显然 很 无 足 轻 重 且 局 限 性 太 强 ， 使 用 
另 一 个 更 合适 的 方法 〈 如 换 用 第 7 章 描 述 的 Cython 或 PyPy) 来 解决 问题 会 带 来 更 
高 的 收益 。 


我 们 对 自己 的 结果 有 信心 ， 是 因为 : 

。 我们 声明 的 假设 易于 测试 。 

。 ”我 们 对 代码 的 改动 仅 局 限于 假设 的 测试 (永远 不 要 一 次 测试 两 件 事 !)。 
。 ”我 们 收集 了 足够 的 证 据 支持 我 们 的 结论 。 


为 了 保持 完整 性 ， 我 们 可 以 在 包含 了 我 们 优化 的 两 个 主要 函数 上 最 后 运行 一 次 
kernprof .py 来 确认 我 们 代码 整体 的 复杂 度 。 例 2-8 交换 了 第 17 行 while 测试 的 
语句 ， 我 们 可 以 看 到 原来 占用 的 36.1% 的 执行 时 间 现 在 仅 占 用 35.9% (这 一 结果 在 
多 次 运行 中 稳定 存在 )。 


例 2-8 交换 while 语句 的 次 序 提升 测试 的 速度 


$ kernprof.py -1 -v julial lineprofiler3.py 















































Wrote profile results to julial lineprofiler3.py.1lprof 
Timer unit: le-06 s 


File: julial lineprofiler3.py 
Function: calculate z serial purepython at line 9 
Total time: 99.7097 s 








Line # Hits PerHit S$Time Line Contents 
@profile 
10 def calculate z serial purepython (maxiter, 
ZS OH) 
11 """Calculate output list using 
Julia update rule"™™"™" 
小 人 2 1 6831.0 0.0 output = [0] * len(zs) 
13 1000001 0.8 0.8 for i in range (len(zs)): 
14 1000000 0.8 0.8 n=0 
15 1000000 Qi9 0.9 z= zs[il] 
16 1000000 0.8 0.8 c= cs[i] 
17 34219980 1.0 3559 while n < maxiter and abs(z) < 2: 
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18 33219980 10 32.50 pA 
19 33219980 0.8 21:59 n += 1 

20 1000000 0.9 0.9 output[i] = n 

21 下 S50 0.0 return output 




















和 预期 的 一 样 ， 我 们 可 以 看 例 2-9 的 输出 中 , calculate z serial purepython 
占用 了 其 父 函 数 97% 的 时 间 。 创 建 列表 的 步骤 相对 来 说 无 足 轻重 。 


例 2-9 ” 逐 行 测试 设置 阶段 的 开销 


File: julial lineprofiler3.py 
Function: calc pure python at line 24 
Total time: 195.218 s 














Line # Hits Per Hit $ Time Line Contents 
24 @profile 
2.5 def calc pure Python (draw output, 
desired widthv 
max iterations): 
44 1 5 0.0 zs = [] 
45 1 TO 0.0 cs = 上 [] 
46 1001 1.1 0.0 for ycoord in y: 
47 1001000 ] 省 0.5 for xcoord in x: 
48 1000000 ee) 028 zs.append( 
complex (xcoord, ycoord)) 
49 1000000 :6 0.8 cs.append( 
complex(c real, c imag)) 
50 
5 1 51..0 0.0 print "Length of x:", len (x) 
S52 1 1 0.0 print "Total elements:", len(zs) 
53 1 6.0 0.0 start time = time.time() 
54 1 191031307.0 97%9 output = 
calculate z serial purepython 
(max iterations, zs, cs) 
55 1 4.0 0.0 end time = time.time() 
56 1 2:.0 0.0 secs = end time - start time 
S57 下 58.0 0.0 print calculate z serial purepython 
.func name + " took", secs, "seconds" 
58 


# this sum is expected for 1000^2 grid... 
59 1 979900 Qa0 assert sum(output) == 33219980 


2.9 用 memory_profiler 诊断 内 存 的 用 量 


和 Rober Kern 实现 的 1ine profiler 包 测 量 CPU 占用 率 类 似 ， Fabian Pedregosa 
和 Philippe Gervais 实现 的 memory_profiler 模块 能 够 逐 行 测量 内 存 占用 率 。 了 
解 代 码 的 内 存 使 用 情况 允许 你 问 自 己 两 个 问题 : 
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。 ”我 们 能 不 能 重 写 这 个 函数 让 它 使 用 更 少 的 RAM 来 工作 得 更 有 效率 ? 

。 ”我 们 能 不 能 使 用 更 多 RAM 缓存 来 节省 CPU 周期 ? 

memory_profiler 的 操作 和 1ine_profiler 十 分 类 似 ,但 是 运行 速度 要 慢 的 
多 。 如 果 你 安装 了 psutil 包 (强烈 推荐 )，memory_profiler 会 哆 得 快 一 点 。 


内 存 分 析 可 以 轻易 让 你 的 代码 慢 上 10 到 100 倍 。 所 以 实际 操作 时 你 可 能 只 是 偶尔 
使 用 memory profiler 而 更 多 地 使 用 line profiler 来 进行 CPU 分 析 。 















































用 命令 pip install memory profiler 来 安装 memory profiler (可 选 装 
pip install psutil), 





之 前 说 过 ，memory_profiler 的 实现 可 能 并 不 如 line_profiler 那么 有 效率 。 
所 以 你 最 好 将 测试 局 限 在 一 个 较 小 的 问题 上 ， 这 样 才能 在 一 个 可 容忍 的 时 间 内 结 
束 。 最 终 验证 可 以 用 一 整 夜来 跑 , 但 你 需要 一 个 迅速 而 合理 的 迭代 周期 用 来 分 析 问 
题 并 验证 假设 。 例 2-10 的 代码 使 用 了 完整 的 1000 x 1000 网 格 ， 在 Ian 的 笔记 本 电 
脑 上 花 了 1.5 个 小 时 来 收集 数据 。 
备 忘 
需要 修改 源 代 码 这 点 比较 讨厌 。 和 line _profiler 一 样 ， 修 饰 器 
(eprofile ) 被 用 来 标记 选中 的 函数 。 这 会 影响 你 的 单元 测试 ， 除 非 
你 创建 一 个 伪 修 饰 器 一 一 见 第 57 页 No-op 的 Qprofile 修饰 器 。 















































在 处 理 内 存 分 配 时 ， 你 必须 意识 到 情况 不 像 CPU 占用 率 那 么 直截了当 。 通 常 让 一 
个 进程 将 内 存 超 额 分 配给 本 地 内 存 池 并 在 空闲 时 使 用 会 更 有 效率 , 因为 内 存 分 配 操 
作 非 常 昂 贵 。 另 外 ,垃圾 收集 不 会 立即 进行 ， 所 以 对 象 可 能 在 被 销毁 后 依然 存在 于 
垃圾 收集 字 中 一 段 时 间 。 


使 用 这 些 技术 的 后 果 就 是 很 难 真正 了 解 一 个 Python 程序 内 部 的 内 存 使 用 和 释放 的 
情况 ,因为 当 勾 砂 杯 从 束 豫 车 记 ， 某 一 行 代码 可 能 不 会 分 配 固定 数量 的 内 存 。 观 窒 
多 行 代码 的 内 存 占 用 趋势 可 能 比 只 观察 一 行 代 码 更 具有 洞察 力 。 


让 我 们 看 看 memory Profilez 在 例 2-10 中 的 输出 。 在 第 12 行 的 calculate 
z_serial_purepython 中 ， 我 们 看 到 分 配 1000000 个 项 目 导致 大 约 7MB 的 
RAM 被 加 入 这 个 进程 。 这 不 意味 着 output 列表 的 大 小 就 是 7MB， 只 是 进程 在 列 
表 内 部 分 配 时 增长 了 大 约 7MB。 第 13 行 , 我 们 看 到 进程 在 循环 内 又 增长 了 32MB。 
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Q@ Memory_profiler 测量 内 存 的 单位 是 国际 电工 委员 会 的 MiB (mebibyte) 为 2^20 字 节 ， 这 跟 更 广 为 人 
知 但 也 更 有 歧义 的 MB (megabyte 同时 有 两 个 广为人知 的 定义 ) 有 轻微 的 区 别 。1 MiB 等 于 1.048576 (大 
约 1.05) MB。 为 了 讨论 方便 ， 除 非特 别 指明 ， 我 们 将 两 者 视 作 相等 。 
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这 可 能 是 由 于 调用 了 range。( 例 11-1 进一步 讨论 了 内 存 追 湖 ，7MB 和 32MB 的 
区 别 源 于 两 个 列表 的 内 容 。) 在 第 46 行 的 父 进程 中 ， 我 们 看 到 zs 和 cs 列表 的 分 
占用 了 大 约 79MB。 再 强调 一 遍 ， 这 个 数字 不 一 定 是 数组 的 真实 大 小 ， 只 是 进程 
在 创建 这 些 列表 的 过 程 中 增长 的 大 小 。 


例 2-10 memory profiler 对 我 们 两 个 主要 函数 的 分 析 结 果 ， 在 calculate _z_ serial 
purepython 上 显示 出 预料 外 的 内 存 使 用 


$ Python -m memory profiler julial memoryprofiler.py 












































nih 








区 














Line# em usage Increment Line Contents 








9 89.934 MiB 0.000 MiB @profile 























10 def calculate z serial purepython (maxiter, 
ZO CS 
11 """Calculate output list using... 
二 97.566 MiB 7.633 MiB output = [0] * len(zs) 
13 130.215 MiB 32.648 MiB for i in range (len(zs)): 
14 130.215 MiB 0.000 MiB n=0 
15 130.215 MiB 0.000 MiB z= zs[il] 
16 130.215 MiB 0.000 MiB c= cs[i] 
17 130.215 MiB 0.000 MiB while n < maxiter and abs(z) < 2: 
18 130.215 MiB 0.000 MiB pA A 
19 130.215 MiB 0.000 MiB n+= 1 
20 130.215 MiB 0.000 MiB output[i] = n 
21 122.582 MiB -7.633 MiB return output 
Line # Mem usage Increment Line Contents 
24 10.574 MiB -112.008 MiB @profile 





2 def calc pure python (draw output, 
desired widthv 
max iterations): 

26 """Create a list of complex ... 























27 10.574 MiB 0.000 MiB x step = (float(x2 - x1) / 
28 10.574 MiB 0.000 MiB y_step = (float(yl - y2) / 
29 10.574 MiB 0.000 MiB x= [] 

30 10.574 MiB 0.000 MiB y= [] 

3 10.574 MiB 0.000 MiB ycoord = y2 

32 10.574 MiB 0.000 MiB while ycoord > yl: 

33 10.574 MiB 0.000 MiB y.append (ycoord) 

34 10.574 MiB 0.000 MiB ycoord += y_ step 

35 10.574 MiB 0.000 MiB xcoord = xl 

36 10.582 MiB 0.008 MiB while xcoord < x2: 

37 10.582 MiB 0.000 MiB x.append (xcoord) 

38 10.582 MiB 0.000 MiB xcoord += x step 
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44 10.582 MiB 0.000 MiB zs = [] 

45 10.582 MiB 0.000 MiB cs = [] 

46 89.926 MiB 79.344 MiB for ycoord in y: 

47 89.926 MiB 0.000 MiB for xcoord in x: 

48 89.926 MiB 0.000 MiB zs.append (complex (xcoord, ycoord)) 
49 89.926 MiB 0.000 MiB cs.append (complex(c real, c¢ imag)) 
50 

5 89.934 Mi 0.008 MiB print "Length of x:", len (x) 

52 89.934 MiB 0.000 MiB print "Total elements:", len(zs) 

53 89.934 MiB 0.000 MiB start time = time.time() 

54 output = calculate z serial... 

55 122.582 MiB 32.648 MiB nd time = time.time() 








男 一 种 展示 内 存 使 用 变化 的 方式 是 随时 间 采 样 并 画图 。memory_profiler 有 一 
个 功能 叫 mprof ， 用 于 对 内 存 使 用 情况 进行 采样 和 画图 。 它 的 采样 基于 时 间 而 不 
是 代码 行 ， 因 而 不 会 影响 代码 的 运行 时 间 。 


图 2-6 是 mprof 运行 julial memoryprofiler.py 生成 的 。 它 会 首先 生成 一 
个 统计 文件 ， 然 后 再 用 mprof 画图 。 图 中 展示 了 我 们 的 两 个 主要 函数 的 执行 开始 
时 间 以 及 运行 时 RAM 的 增长 情况 ,在 calculate z serial purepython 内 ， 
我 们 可 以 看 到 RAM 在 函数 的 整个 执行 时 间 内 都 平稳 增长 ,这 是 为 了 生成 那些 小 对 
象 (int 和 float 类 型 ) 。 



































~ 














python julial_memoryprofiler.py 
140 








120. 


号 
时 


使 用 的 内 存 ( MiB ) 
@ 
时 


a 
| 





20 


+ 01/02/ 2014 -start at 18:00:35.463 
一 calculate_z_serial_purepython 12.257s 
一 calc pure python 12.960s 

I 











0 3 4 6 时 间 ( 秒 ) 8 10 3 14 











2-6 ”mprof 生成 的 memory_profiler 报告 
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除了 在 函数 层面 上 观察 行为 以 外 ， 我 们 还 可 以 使 用 环境 管理 器 添加 标签 。 例 2-11 
的 代码 用 于 生成 图 2-7。 我 们 可 以 看 到 create_output_list 标签 ; 它 在 
calculate z serial purepython 之 后 出 现 ， 并 导致 进程 分 配 更 多 RAM。 
然后 ， 为 了 让 图 更 便于 理解 ， 我 们 用 time.sleep(1) 和 暂停 1 秒 。 


在 create_range_of zs 标签 之 后 ,我 们 看 到 RAM 的 使 用 出 现 了 一 个 猛 增 ， 
在 例 2-11 的 代码 中 ， 你 可 以 看 到 这 个 标签 出 现在 创建 iterations 列表 时 。 
我 们 创建 列表 用 的 是 range 而 不 是 xrange 图 显示 的 很 清楚 ， 为 了 创建 
一 个 索引 ,一 个 具有 1 000 000 个 项 目的 大 列表 被 实例 化 。 这 个 方法 很 没有 效 
率 , 一 旦 遇 到 更 大 的 列表 ， 扩 展 性 也 不 好 (我们 的 RAM 会 耗 尽 ! ) 。 用 于 创建 
这 个 列表 的 内 存 分 配 操作 本 身 也 占用 了 一 点 时 间 , 却 没 有 为 这 个 函数 带 来 什么 
有 用 的 贡献 。 

备 忘 

在 Python 3 中 range 的 行为 改变 了 , 它 跟 Python 2 的 xrange 一 样 。 

xrange 在 Python 3 中 已 被 淘汰 ，2to3 转换 工具 会 自动 帮 你 进行 这 一 

转换 。 




































































例 2-11 用 环境 管理 器 给 mprof 图 像 添加 标签 


Gprofile 





def calculate z serial purepython (maxiter, zs, cs): 
"""Calculate output 1list using Julia update rule™"™" 
with profile.timestamp ("create output list"): 
output = [0] * len(zs) 
time.sleep (1) 
with profile.timestamp ("create range of zs"): 
iterations = range (len(zs)) 
with profile.timestamp ("calculate output"): 








for i in iterations: 


n= 0 

z= zs[i] 

c= cs[lil] 

while n < maxiter and abs(z) < 2: 
Zr SZ 
n += 1 

output[i] = n 


return output 


对 于 占据 了 图 像 大 部 分 时 间 的 calculate_output， 我 们 可 以 看 到 RAM 有 一 个 非常 组 
慢 的 线性 增长 ,这 是 用 于 分 配给 内 部 循环 中 所 有 用 到 的 临时 数字 。 使 用 标签 确实 可 
以 帮助 我 们 细 粒 度 地 了 解 内 存 的 使 用 情况 。 
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python julial_memoryprofiler2.py 
140 T T T T T Tr 








使 用 的 内 存 ( MiB ) 


| 
| 
| 
1 
1 
1 
1 
1 
1 
1 
1 
1 
bh 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 





1 
01/02/2014- statt at 18:05:11.546 
create_output list 0.007s 
calc_pure_python 13.925s 
calculate_z_serial_purepython 13.221s 
create_range_of zs 12.203s 
calculate_output 12.184s 

I 





i mt 














8 10 12 14 16 
时 间 ( 秒 ) 











2-7” 带 标签 的 mprof 报告 


最 后 ， 我 们 可 将 range 调用 替换 成 xrange。 在 图 2-8 中 ,我 们 可 以 看 到 内 部 循 
环 的 RAM 使 用 情况 相应 降低 了 。 








python julial_xrange.py 
120 











使 用 的 内 存 ( MiB ) 


01/02/2014- startiat 18:31:57.686 
create_output list 0.007s 
calculate_z_serial_purepython 13.337s 
calculate_output 12.328s 

I 





1111 











2 4 6 时 间 ( 秒 ) 5 10 12 14 16 


2-8 ”用 xrange 替换 range 之 后 的 效果 报告 
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如 果 我 们 想 要 测量 某 些 语句 的 RAM 使 用 情况 ， 我 们 可 以 用 IPython 的 smemit 麻 
法 函数 ， 其 工作 方式 类 似 于 stimeit。 第 11 章 会 详细 讨论 smemit 的 用 法 以 及 各 
种 增进 RAM 使 用 效率 的 方法 。 


2.10 用 heapy 调查 堆 上 的 对 象 


Guppy 项 目 有 一 个 内 存 堆 的 调查 工具 叫 作 heapy, 可 以 让 你 查看 Python 推 中 对 象 的 
数量 以 及 每 个 对 象 的 大 小 。 当 你 需要 知道 某 一 时 刻 有 多 少 对 象 被 使 用 以 及 它们 是 否 
被 垃圾 收集 时 , 你 尤其 需要 这 种 深入 解释 器 内 部 去 了 解 内 存 中 实际 内 容 的 能 力 。 如 
果 你 受 困 于 内 存 泄漏 (可 能 由 于 你 的 对 象 的 引用 隐藏 于 一 个 复杂 系统 中 )， 那 么 这 
个 工具 能 帮 你 找到 问题 的 关键 点 。 


当 你 在 审查 你 的 代码 , 看 它 是 否 如 你 预期 那样 生成 对 象 时 , 你 会 发 现 这 个 工具 非常 
有 用 一 一 结果 很 可 能 令 你 吃惊 ， 并 为 你 带 来 新 的 优化 方向 。 


为 了 使 用 heapy， 你 需要 用 命令 pip install guppy 安装 guppy 包 。 


例 2-12 的 代码 是 Julia 代码 的 一 个 略 有 修改 的 版 本 。calc_pure_python 使 用 了 
堆 对 象 npy， 我 们 在 三 个 地 方 打 印 堆 的 内 容 。 


例 2-12 用 heapy 查看 代码 运行 时 对 象 数量 的 变化 


def calc pure _ python (draw output, desired width, max iterations): 

































































while xcoord < x2: 
x.append (xcoord) 
XCoord += X_ step 


from guppy import hpy; hp = hpy() 

print "heapy after creating y and x lists of floats" 
h = hp.heap() 

print h 

print 


ZS 
CS 


[] 
[] 


for ycoord in y: 


fOr KCOOLd LN Xi 
zs.append (complex (xcoord, ycoord)) 
cs.append(complex(c real, c¢c imag)) 


print "heapy after creating zs and cs using complex numbers" 
h = hp.heap() 
print h 
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print 


print "Length of x:", len (x) 
print "Total elements:", len(zs) 
start time = time.time() 
output = calculate z serial purepython (max iterations, zs, cs) 
nd time = time.time() 
secs = end time - start time 
print calculate z serial purepython.func name + " took", secs, "seconds" 





print 

print "heapy after calling calculate z serial purepython" 
h = hp.heap() 

print h 

BPELnt 





hd Oa ni 吾 变 得 有 趣 : 它 增长 了 大 约 
80MB , 因为 2000000 个 复数 对 象 消耗 了 64000000 字 节 。 这 些 复数 对 象 占据 了 目前 
a 个 结果 可 用 于 揭示 目 
前 保存 的 对 象 数量 以 及 它们 总 共 占 用 的 空间 。 





例 2-13 heapy 输出 显示 了 我 们 代码 执行 时 每 一 个 主要 阶段 的 对 象 总 数 


$ Python julial guppy.py 
heapy after creating y and x lists of floats 
Partition of a set of 27293 objects. Total size = 3416032 bytes . 





Index Cou i Size $ Cumulative % Kind (class / dict of class) 
0 10960 40 1050376 31 1050376. 731.:St£ 
1 5768 21 465016 14 1515392 44 tuple 
2 199 1 210856 6 1726248 51 dict of type 
3 72 0 206784 6 1933032 57 dict of module 
4 1592 6 203776 6 2136808 63 types.CodeType 
5 313 1 201304 6 2338112 68 dict (no owner) 
6 1557 6 186840 5 2524952 74 function 
7 199 1 177008 5 2701960 79 type 
8 124 0 135328 4 2837288 83 dict of class 


9 1045 4 83600 2 2920888 86 _ builtin .wrapper descriptor 


<91 more rows. Type e.g. '_.more' to view.> 


heapy after creating zs and cs using complex numbers 
Partition of a set of 2027301 objects. Total size = 83671256 bytes. 


Index Count %$ Size $ Cumulative % Kind (class / dict of class) 
2000000 99 6400000 76 64000000 76 complex 
185 0 16295368 19 80295368 96 list 


0 

1 

2°. .0962 1 1050504 1 81345872 9 -SE 
3 5767 
4 

3 


0 464952 1 81810824 98 tuple 
199 0 210856 0 82021680 98 dict of type 
72 0 206784 0 82228464 98 dict of module 
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6 1592 0 203776 0 82432240 99 types.CodeType 
7 349 0 202984 0 82635224 99 dict (no owner) 
8 1556 0 186720 0 82821944 99 function 


9 199 0 177008 0 82998952 99 type 
<92 more rows. Type e.g. '_.more' to view.> 


Length of x: 1000 
Total elements: 1000000 
calculate z serial purepython took 13.2436609268 seconds 


heapy after calling calculate z serial purepython 
Partition of a set of 2127696 objects. Total size = 94207376 bytes. 


9 9 


Index Count 多 Size $ Cumulative % Kind (class / dict of class) 





0 2000000 94 64000000 68 64000000 68 complex 

业 186 0 24421904 26 88421904 94 list 

2 100965 5 2423160 3 90845064 96 int 

3 10962 1 1050504 1 -91L895568. 98 :St 

4 5767 0 464952 0 92360520 98 tuple 

5 199 0 210856 0 92571376 98 dict of type 

6 72 0 206784 0 92778160 98 dict of module 
3 1592 0 2037 6 0 92981936 99 types .CoqeType 
8 319 0 202984 0 93184920 99 dict (no owner) 





9 1556 0 186720 0 93371640 99 function 
<92 more rows. Type e.g. '_.more' to view.> 


第 三 段 显 示 了 在 计算 完 Julia 集合 后 , 我 们 占用 了 94MB 的 内 存 。 除 了 之 前 的 复数 ， 
我 们 现在 还 保存 了 大 量 的 整数 ， 列 表 中 的 项 目 也 变 多 了 。 


hpy.setrelheap () 可 以 用 来 创建 一 个 内 存 断 点 , 当 后 续 调用 hpy.heap () 时 就 
会 产生 一 个 跟 这 个 断 点 的 差额 。 这 样 你 就 可 以 略 过 断 点 前 由 Python 内 部 操作 导致 
的 内 存 分 配 。 


2.11 用 dowser 实时 男 出 变量 的 实例 


Robert Brewer 的 dowser 可 以 在 代码 运行 时 钧 人 名 字 空 间 并 通过 CherryPy 接口 在 一 
个 Web 服务 器 上 提供 一 个 实时 的 变量 实例 图 。 每 个 被 追踪 对 象 都 有 一 个 走势 图 ， 
让 你 可 以 看 到 某 个 对 象 的 数量 是 否 在 增长 。 这 在 分 析 长 期 运行 的 进程 时 很 有 用 。 
如 果 你 有 一 个 长 期 运行 的 进程 且 你 预计 程序 的 不 同 操作 会 带 来 不 同 的 内 存 变 化 ( 比 
如 你 可 能 想 对 一 台 web 服务 器 上 传 一 些 数据 或 跑 一 些 复杂 的 查询 ) ， 那 么 你 可 以 实 
时 确认 这 些 变化 ， 见 图 2-9。 


要 使 用 它 ， 我 们 需要 在 Julia 代码 中 加 入 辅助 函数 ( 例 2-14) 用 来 启动 CherryPy 
服务 器 。 
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__builtin__.list 


Min: 885 Cur 1117 Max: 1160 TRACE 


__builtin _.method _ descriptor 


Min: 718 Cur 722 Max: 722 TRACE 


__builtin _.Set 


Min: 181 Cur 183 Max: 186 TRACE 











2-9 dowser 通过 CherryPy 显示 的 三 张 走势 图 


例 2-14 在 应 用 中 启动 dowser 的 辅助 函数 


def launch memory usage server (Port=8080) : 
import cherrypy 
import dowser 





cherrypy.tree.mount (dowser .Root () ) 

cherrypy.config.updatel({ 
'environment': 'embedded', 
'server.socket port': port 

晤 


cherrypy.engine.start() 


在 开始 计算 之 前 ， 我 们 需要 首先 启动 CherryPy 服务 器 ， 如 例 2-15 所 示 。 完 成 计算 
后 , 我 们 可 以 调用 time .sleep 维持 控制 台 打开 一 一 这 会 让 CheeryPy 进程 保持 运 
行 ， 让 我 们 可 以 继续 审查 名 字 空 间 的 状态 。 


例 2-15 在 正确 的 时 机 启动 dowser， 这 会 启动 一 个 Web 服务 器 








for xcoord in x: 
zs.append (complex (xcoord, ycoord)) 
cs.append (complex(c real, c imag)) 


launch memory usage server() 


output = calculate z serial purepython (max iterations, zs, cs) 


print "now waiting..." 
while True: 
time.sleep (1) 


点 击 图 2-9 中 的 TRACE 链接 ,我 们 就 可 以 看 到 每 个 list 对 象 的 内 容 (图 2-10)。 我 
们 还 可 以 继续 深入 每 个 list 内 部 一 一 这 就 像 在 IDE 中 使 用 一 个 交互 调试 器 一 样 ， 
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晶 是 你 可 以 在 一 台 服 务 器 上 进行 而 丰硕 要 一 个 IDE。 





36722880 list 
list of len 1000: [-1.8, -1.7964, -1.7928, -1.7892, -1.7855999999999999, -1.7819999999999998, -1.778... 


36395056 list 
list of len 1000: [1.8. 1.7964, 1.7928, 1.7892, 1.7855999999999999. 1.7819999999999998, 1.7783999999... 





36722016 list 
list of len [7 7: [(-1.8+1.8)). (-1.7964+1.8)). (-1.7928+1.8)). (-1.7892+1.8)). (-1.7855999999999... 


36722952 list 
list of len 1000000: [(-0.62772-0.42193)), (-0.62772-0.42193j), (-0.62772-0.42193j). (-0.62772-0.421... 

















图 2-10 ”dowser 显示 某 个 列表 中 有 1 000 000 个 项 目 


备 忘 

我 们 当然 更 希望 在 可 控 的 情况 下 直接 分 析 代 码 块 。 但 是 有 时 这 不 一 定 
做 得 到 ， 或 者 有 时 你 只 是 想 要 简单 地 分 析 一 下 情况 。 查 看 一 个 正在 运 
行 的 进程 的 内 部 细节 会 是 一 种 折 中 的 方案 ， 不 需要 进行 太 多 的 工作 就 
可 以 提供 足够 的 证 据 。 


2.12 用 dis 模块 检查 CPython 字 让 码 


到 目前 为 止 我 们 已 经 展示 了 很 多 测量 Python 代码 开销 的 方法 (包括 CPU 和 RAM 
的 开销 )。 不 过 , 我 们 还 没有 看 到 在 底层 虚拟 机 的 字 节 码 层面 发 生 的 事情 。 了 解 “ 台 
面 下 ”发 生 的 事情 有 助 于 在 脑海 中 对 运行 慢 的 函数 建立 一 个 模型 ， 并 能 帮助 你 编译 
你 的 代码 。 所 以 现在 让 我 们 来 看 一 些 字 节 码 。 


dis 模块 让 我 们 能 够 看 到 基于 栈 的 CPython 虚拟 机 中 运行 的 字 节 码 。 在 你 的 Python 
代码 运行 的 时 候 , 了 解 虚拟 机 中 发 生 了 什么 可 以 帮助 你 了 解 为 什么 某 些 编码 风格 会 
比 其 他 的 更 快 。 同 时 还 能 帮助 你 使 用 Cython 这 样 的 工具 , 它 跳出 了 Python 的 范畴 ， 
能 够 生成 C 代码 。 

dis 模块 是 内 建 的 。 你 可 以 传 给 它 一 段 代码 或 者 一 个 模块 , 它 会 打印 出 分 解 的 字 节 
码 。 在 例 2-16 中 我 们 分 解 了 函数 的 外 层 循环 。 

问题 

你 应 该 试 着 分 解 一 个 你 自己 的 函数 并 将 每 一 个 分 解 的 代码 和 分 解 的 
输出 匹配 起 来 。 你 能 匹配 下 面 的 dis 输出 和 原始 函数 吗 ? 
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例 2-16 使 用 内 建 的 dis 模块 来 了 解 运行 代码 的 虚拟 机 


In [1]: import dis 
In [2]: import julial nopil 


In [3]: dis.dis(julial nopil.calculate z serial purepython) 




















TT 0 LOAD CONST 1 (0) 
3 BUILD LIST 1 
6 LOAD GLOBAL 0 (len) 
9 LOAD FAST 1 (zs) 
12 CALL FUNCTION 1 
15 BINARY MULTIPLY 
16 STORE FAST 3 (output) 
12 19 SETUP LOOP 123 (to 145) 
22 LOAD GLOBAL 1 (range) 
25 LOAD GLOBAL 0 (len) 
28 LOAD FAST 1 (zs) 
31 CALL FUNCTION a 
34 CALL FUNCTION 由 
37 GET_ 工 IER 
>> 38 FOR_ITER 103 (to 144) 
41 STORE FAST 4 (i) 
3 44 LOAD CONST L(y 
47 STORE FAST 5 (n) 
2 
# We'l1l1 snip the rest of the inner loop for brevity! 
-2 
19 >> 131 LOAD FAST 5 (n) 
134 LOAD FAST 3 (output) 
137 LOAD FAST 4 i(¥) 
140 STORE SUBSCR 
141 JUMP_ ABSOLUTE 38 
>> 144 POP BLOCK 
20 >> 145 LOAD FAST 3 (output) 


148 RETURN VALUE 
这 个 输出 非常 的 直 白 简明 。 第 一 列 包 含 了 原始 文件 的 行 数 。 第 二 列 包含 了 一 些 >> 
标志 ,它们 是 指向 其 他 代码 的 跳 转 点 。 第 三 列 是 操作 的 地 址 和 操作 名 。 第 四 列 包 含 
了 操作 的 参数 。 第 五 列 的 标记 可 用 来 帮助 对 照 字 节 码 和 原始 Python 的 参数 。 


对 照 字 节 码 和 例 2-3 中 的 Python 代码 。 字 节 码 首先 将 常数 0 放 到 栈 上 ， 然 后 创建 
了 一 个 具有 一 个 项 目的 列表 。 接 下 来 ， 它 搜索 了 名 字 空 间 来 查询 len 函数 ， 将 它 
放 到 栈 上 ， 再 次 搜索 名 字 空 间 找到 zs ， 放 到 栈 上 。 在 第 12 行 ， 它 从 栈 上 调用 len 
函数 ， 且 弹出 了 栈 上 的 zs 作为 参数 ， 然 后 对 最 后 两 个 参数 调用 二 进 制 乘法 (zs 
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的 长 度 和 那个 单项 目 列表 ) 将 结果 保存 在 output 中 。 这 就 是 我 们 那个 Python 桥 
数 的 第 一 行 干 的 事情 。 你 可 以 继续 查看 下 一 段 字 节 码 来 了 解 Python 代码 第 二 行 的 
行为 (外 层 for 循环 )。 

问题 

跳 转 点 (>> ) 匹配 JUMP ABSOLUTE 以 及 POP JUMP IF FALSE 

等 指令 。 过 一 人 遍 你 自己 的 函数 分 解 结果 并 对 照 跳 转 点 和 跳 转 指令 。 




















介绍 完 字 节 码 , 我 们 现在 要 问 : 要 完成 同样 的 任务 ， 显 式 编 写 的 函数 和 使 用 内 建 函 
数 在 字 节 码 和 时 间 开 销 上 的 对 比 是 什么 。 


不 同 的 方法 ， 不 同 的 复杂 度 








应 该 有 一 种 一 一 而 且 最 好 只 有 唯一 的 一 种 一 一 明显 的 方式 去 完成 它 。 虽然 
这 种 方式 可 能 一 开始 并 不 明显 ， 除 非 你 是 荷兰 人 ……: 

Tim Peters 

Python 之 禅 





通过 Python 你 有 无 数 种 方式 表达 你 的 意思 。 一 般 来 说 最 优 的 那个 选择 十 分 明显 ， 
但 是 如 果 你 的 经 验 主要 来 自 一 个 老 版 本 的 Python 或 男 一 门 编程 语言 ， 那 么 在 你 的 
脑海 里 可 能 就 是 另外 的 选择 。 某 些 表达 的 方式 可 能 就 比 别 的 要 慢 。 


对 于 你 大 多 数 的 代码 , 你 可 能 更 关心 可 读 性 而 不 是 速度 , 这 能 让 你 的 团队 更 有 效 地 
写 代 码 ， 而 不 是 被 高 效 而 难 懂 的 代码 所 迷惑 。 但 是 ， 有 些 时 候 你 会 更 追求 性 能 ( 且 
不 牺牲 可 读 性 ) ， 那 么 你 需要 的 可 能 是 一 些 速度 测试 。 


看 看 例 2-17 的 两 段 代码 。 它 们 都 做 了 相同 的 工作 ， 但 是 第 一 个 会 产生 大 量 额外 的 
Python 字 节 码 ， 带 来 更 大 的 开销 。 


例 2-17 一 个 单纯 的 和 一 个 高 效 的 手段 解决 同一 个 求 和 问题 
def fn expressive(upper = 1000000): 
total = 0 
for n in xrange (upper): 
total += n 
return total 













































































def fn terse(upper = 1000000): 
return suml(xrange (upper)) 





print "Functions return the same result:", fn expressive() == fn terse() 
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Functions return the same result: 
区 全 


两 个 函数 都 对 一 批 整 数 求 和 。 一 个 简单 的 经 验 法 则 (但 是 你 一 伦 要 进行 性 能 分 析 !) 
是 字 节 码 越 多 执行 的 速度 越 慢 。 内 建 浮 数 使 用 了 更 少 的 字 节 码 行 数 来 完成 同样 的 工 
作 。 我 们 在 例 2-18 中 使 用 IPython 的 $timeit 魔法 函数 测量 它们 的 最 快运 行 时 间 。 


例 2-18 用 %timeit 验证 我 们 的 假设 : 内 建 函 数 应 该 比 自己 写 函 数 要 快 (译注 : 
原著 中 未 给 出 包 terse0 的 结果 ) 


stimeit fn expressive () 












































10 loops, best of 3: 42 ms Per loop 
100 loops, best of 3: 12.3 ms per loop 


stimeit fn terse() 
如 果 我 们 用 dis 模块 调查 每 个 函数 的 字 节 码 ， 如 例 2-19 所 示 ， 我 们 能 看 到 虚拟 机 
用 了 17 行 来 执行 更 有 表现 力 的 函数 ， 而 仅 用 了 6 行 来 执行 非常 可 读 但 更 简洁 的 第 
二 个 函数 。 

例 2-19 用 dis 查看 两 个 函数 的 字 节 码 指令 行 数 


import dis 











print fn expressive.func name 
dis.dis(fn expressive) 


fn expressive 

















2 0 LOAD CONST 1 (0) 
3 STORE FAST 1 (total) 
3 6 SETUP LOOP 30 (E0639) 
9 LOAD GLOBAL 0 (xrange) 
12 LOAD FAST 0 (upper) 
15 CALL FUNCTION 二 
18 GET_ITER 
> 二 9 FOR ITER 16 (to 38) 
22 STORE_ FAST 2 (n) 
4 25. LOAD FAST 1 .(total) 
28 LOAD FAST 2 (n) 
SL INPLACE ADD 
32 STORE FAST 1 (total) 
35 JUMP ABSOLUTE 19. 
>> 38 POP_BLOCK 
5 >> 39 LOAD FAST 1 (total) 
42 RETURN VALUE 
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print fn terse.func name 
dis.dis(fn terse) 


fn terse 
LOAD GLOBAL 
LOAD GLOBAL (xrange) 


0 (sum) 

二 
LOAD FAST 0 (upper) 

1 

J 


Oy A 


9 CALL FUNCTION 
12 CALL FUNCTION 
15 RETURN VALUE 


两 段 代码 的 区 别 很 明显 。 在 fn _expressive() 内 部 ， 我 们 维护 了 两 个 本 地 变量 
用 for 循环 遍历 了 一 个 列表 。for 循环 会 在 每 次 循环 时 检查 StopIteration 异常 是 
否 被 引发 。 每 次 迭代 都 会 调用 total. add 函数 , 这 个 函数 会 检查 第 二 个 变量 
(n) 的 类 型 。 所 有 这 些 检查 都 会 带 来 一 些 开销 。 


在 fn_terse() 内 部 ,我 们 调用 了 一 个 用 C 编写 的 优化 的 列表 操作 函数 ， 它 知道 
如 何 生成 最 后 的 结果 而 无 须 创 建 中 间 的 Python 对 象 。 这 样 会 快 很 多 ， 即 使 每 次 迭 
代 仍然 必须 检查 被 求 和 对 象 的 类 型 (我 们 会 在 第 4 章 看 到 一 些 将 类 型 固定 的 方法 ， 
这 样 就 不 需要 在 每 次 迭代 时 都 检查 它 )。 


之 前 提 过 ， 你 一 伦 要 对 你 的 代码 进行 性 能 分 析 一 一 但 如 果 你 只 依靠 性 能 分 析 来 试 
错 ， 那 你 必然 会 在 某 些 时 候 写 出 较 慢 的 代码 。 学 习 Python 是 否 已 经 存在 一 个 内 建 
的 更 短 且 依然 可 读 的 方式 来 解决 你 的 问题 是 绝对 值得 的 。 如 果 已 经 存在 , 那么 它 可 
能 更 容易 被 男 一 个 开发 人 员 理 解 且 世 议 运行 得 会 更 快 。 


2.13 在 优化 期 间 进行 单元 测试 保持 代码 的 正确 性 
如 果 你 不 对 你 的 代码 进行 单元 测试 ， 那 么 从 长 远 来 看 你 可 能 正在 损害 你 的 生产 力 。 
Ian (脸红 ) 十 分 槛 粹 地 提 到 有 一 次 他 花 了 一 整 天 的 时 间 优 化 他 的 代码 ， 因 为 嫌 采 
烦 所 以 他 禁用 了 单元 测试 , 最 后 却 发 现 那 个 显著 的 速度 提升 只 是 因为 他 破坏 了 需要 
优化 的 那 段 算法 。 这 样 的 错误 你 一 次 都 不 要 犯 。 

除了 单元 测试 ， 你 还 应 该 坚定 地 考虑 使 用 coverage .py。 它 会 检查 有 哪些 代码 行 
被 你 的 测试 所 覆盖 并 找 出 那些 没有 被 覆盖 的 代码 。 这 可 以 让 你 迅速 知道 你 是 否 测试 
了 你 想 要 优化 的 代码 ， 那 么 在 优化 过 程 中 可 能 潜伏 的 任何 错误 都 会 被 迅速 抓 出 来 。 


No-op 的 @profile 修饰 器 


如 果 你 的 代码 使 用 了 line profiler 或 者 memory profiler 的 @profile 修 
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饰 器 ,那么 你 的 单元 测试 会 引发 一 个 NameError 异常 并 失败 。 原 因 是 单元 测试 杠 
架 不 会 将 eprofile 修饰 器 注入 本 地 名 字 空 间 。no-op 修饰 器 可 以 在 这 种 时 候 解 决 
问题 。 在 你 测试 时 把 它 加 入 你 的 代码 块 ,并 在 你 结束 测试 后 移 除 它 是 在 方便 不 过 的 
事情 了 。 
使 用 no-op 修饰 器 ， 你 可 以 运行 你 的 测试 而 不 需要 修改 你 的 代码 。 这 意味 着 你 可 以 
在 每 次 优化 之 后 都 运行 你 的 测试 ， 你 将 永远 不 会 个 在 一 个 出 问题 的 优化 步 又 上 。 
如 例 2-20 所 示 ， 假 设 我 们 有 一 个 ex .py 模块 ， 它 有 一 个 测试 用 例 (基于 nosetests 框 
架 ) 和 一 个 函数 ， 这 个 函数 我 们 正在 用 line _profiler 或 者 memory profiler 
进行 性 能 分 析 。 

例 2-20 一 个 简单 的 函数 和 一 个 测试 用 例 需要 用 到 @profile 


# ex.py 
import unittest 









































@profile 
def some fn (nbr): 
Keturn NDIr 2 





class TestCase (unittest.TestCase): 
def test (self): 
result = some fn(2) 
self.assertEquals (result, 4) 


如 果 我 们 运行 nosetests 测试 我 们 的 代码 就 会 得 到 一 个 NameError: 





$ nosetests ex.py 
E 








ERROR: Failure: NameError (name 'profile' is not defined) 


NameError: name ‘'profile' is not defined 
Ran 1 test in 0.001s 


FAILED (errors=1) 
解决 方法 是 在 ex .py 开头 添加 一 个 no-op 修饰 器 〈 你 可 以 在 完成 性 能 分 析 之 后 移 
除 它 ) 。 如 果 在 名 字 空 间 中 寻找 不 到 eprofile 修饰 器 (因为 没有 使 用 
line_profiler 或 者 memory_profiler)， 那 么 我 们 写 的 no-op 版 本 的 修饰 器 
就 会 被 加 入 名 字 空 间 。 如 果 1ine_profiler 或 者 memory_profiler 已 经 将 新 
的 函数 加 入 名 字 空 间 ， 那 么 我 们 no-op 版 本 的 修饰 器 就 会 被 忽略 。 


对 于 line_profiler， 我 们 可 以 加 入 例 2-21 的 代码 。 
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例 2-21 在 单元 测试 时 在 名 字 空 间 中 加 入 针对 line_profiler 的 no-op@profile 修 


饰 器 
# line profiler 
i huiltin, “not in dir() Sr riot hasattr( buliltin vy "profilen): 


def profile (func): 

def inner(*args, **kwargs): 
return func(*args, **kwargs) 
return inner 


”builtin 检查 是 针对 nosetests 的 , hasattr 则 用 来 检查 eprofile 修饰 
器 是 否 已 经 被 加 入 名 字 空 间 。 现 在 可 以 在 我 们 的 代码 上 成 功 运行 nosetests 了 : 


$ kernprof.py -V -1 ex.py 

















Line # Hits Time Per %%$HTMLit $ Time Line Contents 
1 @profile 
12 def some fn (nbr): 
3 1 3 20 100.0 return nbr * 2 


$ nosetests ex.py 


Ran 1 test in 0.000s 


对 于 memory_profiler， 我 们 使 用 例 2-22 的 代码 。 
例 2-22 在 单元 测试 时 在 名 字 空 间 中 加 入 针对 memory_profiler 的 no-op@profile 


# memory profiler 
if. "profiLle", not in dir(): 
def profile (func): 
def inner(*args, **kwargs): 
return func(*args, **kwargs) 
return inner 


期 望 产 生 的 输出 如 下 : 


Python -m memory profiler ex.py 














Line # Mem usage Increment Line Contents 








1 10.809 MiB 0.000 MiB @profile 
多 def some fn(nbr): 
3 10.809 MiB 0.000 MiB return nbr * 2 


$ nosetests ex.py 


Ran 1 test in 0.000 
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不 使 用 这 些 修饰 器 可 以 节省 你 几 分 钟 , 但 是 一 旦 你 在 一 个 破坏 你 代码 的 错误 优化 上 
失去 了 好 几 个 小 时 ， 你 就 会 想 要 把 这 个 加 入 你 的 工作 流程 了 。 


2.14 确保 性 能 分 析 成 功 的 策略 


性 能 分 析 需 要 一 些 时 间 和 精力 。 如 果 你 把 需要 测试 的 代码 段 跟 你 代码 的 主体 分 离 ， 
你 会 有 一 个 更 好 的 机 会 去 了 解 你 的 代码 。 然 后 你 可 以 用 单元 测试 来 保证 正确 性 , 你 
还 可 以 传人 精心 编造 的 真实 数据 来 测试 算法 的 有 效 性 。 


记得 关闭 任何 基于 BIOS 的 加 速 器 ， 因 为 它们 只 会 混淆 你 的 结果 。Ian 的 笔记 本 电 
脑 使 用 的 Intel TurboBoost 功能 可 以 在 温度 足够 低 的 时 候 将 CPU 暂时 加 至 极速 。 这 
意味 着 低温 时 运行 同一 段 代码 的 速度 可 能 比 高 温 时 要 快 ,你 的 操作 系统 也 许 还 控制 
了 时 钟 的 速度 一 一 使 用 电池 电源 的 笔记 本 可 能 比 插 了 主 电源 时 更 积极 地 控制 CPU 
的 速度 。 为 了 建立 一 个 更 加 稳定 的 测试 配置 ， 我 们 : 


。 在 BIOS 上 禁用 了 TurboBoost。 


。 禁用 了 操作 系统 改写 SpeedStep( 如 果 你 有 权限 ,你 可 以 在 你 的 BIOS 中 找到 它 ) 
的 能 

。 只 使 用 主 电源 (从 不 使 用 电池 电源 ) 。 

。 ”运行 实验 时 禁用 后 台 工具 如 备份 和 Dropbox。 

。 多 次 运行 实验 来 获得 一 个 稳定 的 测量 结果 。 

。 ”如 果 可 能 ， 降 至 run level 1 (UNIX)， 确保 没 有 其 他 任务 运行 。 

。 重启 并 重 跑 实验 来 二 次 验证 结 

试 着 假设 你 代码 的 行为 并 用 性 能 分 析 的 结果 来 证 实 (或 证 伪 ) 你 的 假设 。 你 的 选择 

不 会 改变 (因为 你 的 决定 只 能 基于 性 能 分 析 后 的 结果 )， 但 是 你 对 代码 的 直觉 了 解 

会 提升 ， 而 这 会 在 今后 的 项 目 中 带 来 好 处 ， 因 为 你 会 变 得 更 能 做 出 高 效 的 决定 。 当 

然 ， 你 依然 需要 性 能 分 析 来 验证 这 些 高 效 的 决定 。 

不 要 克扣 准备 工作 。 如 果 你 在 测试 一 段 深入 大 型 项 目的 代码 前 不 先 将 代码 分 离 , 你 

很 有 可 能 会 因为 一 些 副作用 而 让 你 的 努力 偏离 正轨 。 当 你 进行 细 粒 度 的 改动 时 ， 对 

大 型 项 目 进行 单元 测试 往往 会 更 困难 , 而 这 又 会 更 进一步 妨碍 你 的 努力 。 副 作用 可 

能 包括 其 他 线程 或 进程 影响 了 CPU 和 内 存 的 使 用 以 及 网 络 和 磁盘 的 活动 ， 这 些 都 

会 焉 曲 你 的 结果 。 
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对 于 Web 服务 器 ,推荐 dowser 和 dozer， 你 可 以 用 它们 来 将 名 字 空 间 中 的 对 象 
行为 实时 可 视 化 。 如 果 可 能 ， 一 定 要 将 你 想 测试 的 代码 从 Web 应 用 的 主体 上 分 离 
出 来 ， 这 会 让 性 能 分 析 方便 太 多 。 


确保 你 的 单元 测试 覆盖 了 所 有 你 想 要 分 析 的 代码 路 径 。 任 何 你 没有 测 过 的 东西 都 
有 可 能 带 来 细微 的 错误 拖 慢 你 的 进度 。 使 用 coverage .py 来 确认 你 的 测试 覆盖 
了 所 有 的 代码 路 径 。 


对 一 个 生成 很 多 数字 输出 的 复杂 代码 段 进行 单 元 测试 可 能 会 很 困难 。 不 要 害怕 将 结 
果 输 出 到 一 个 文本 文件 来 运行 Giff 或 者 使 用 一 个 Pickled 对 象 。 对 于 数字 优化 
的 问题 ，Ian 喜欢 创建 一 个 包含 了 大 量 浮 点 数 的 长 文本 文件 并 使 用 diff 一 一 细小 
的 取 整 问题 会 立刻 显现 ， 哪 怕 它 们 在 输出 中 很 罕见 。 


如 果 你 的 代码 容易 受到 数字 取 整 问题 的 影响 , 那么 你 最 好 有 一 个 大 的 输出 可 以 用 来 
进行 前 后 对 比 。 取 整 错误 的 一 个 原因 是 CPU 寄存 器 和 主 存 之 间 的 浮 点 精度 不 同 。 
你 的 代码 在 不 同 的 代码 路 径 上 运行 可 能 导致 细微 的 取 整 错误 并 在 之 后 给 你 带 来 困 
扰 一 一 所 以 最 好 在 它们 刚 发 生 的 时 候 就 尽早 意识 到 这 点 。 


显然 , 在 性 能 分 析 和 优化 时 使 用 源 代码 控制 工具 是 很 有 意义 的 。 创 建新 的 代码 分 支 
代价 很 低 ， 而 且 它 能 让 你 保持 头脑 清醒 。 

































































2.15 ”小结 


看 过 各 种 性 能 分 析 技 术 以 后 , 你 应 该 已 经 有 了 所 有 必需 的 工具 来 验证 你 的 代码 中 的 
CPU 和 RAM 瓶颈 。 接 下 来 我 们 要 去 看 看 Python 是 如 何 实现 最 常用 的 容器 的 ， 这 
样 你 就 能 明智 地 决定 使 用 哪 种 容器 来 存放 大 数据 的 集合 。 
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第 3 章 


列表 和 元 组 





读 完 本 章 之 后 你 将 能 够 回答 下 列 问 题 

。 ”列表 和 元 组 各 自 适用 于 什么 情况 ? 

。 ”查询 列表 /元 组 的 复杂 度 是 什么 ? 

。 ”该 复杂 度 是 如 何 计算 出 来 的 ? 

。 ”列表 和 元 组 的 区 别 是 什么 ? 

。 ”向 列表 添加 新 项 目 是 如 何 实 现 的 ? 

。 ”我 应 该 在 什么 情况 下 使 用 列表 和 元 组 ? 


写 高 性 能 程序 最 重要 的 事情 是 了 解 你 的 数据 结构 所 能 够 提供 的 性 能 保证 。 事 实 上 ， 
高 性 能 编程 的 很 大 一 部 分 是 了 解 你 查询 数据 的 方式 , 并 选择 一 个 能 够 迅速 响应 这 个 
查询 的 数据 结构 。 本 章 我 们 将 谈论 那些 列表 和 元 组 能 迅速 响应 的 查询 ,以 及 它们 是 
如 何 响应 的 。 


列表 和 元 组 之 类 的 数据 结构 被 称 为 办 纹 ,一 个 数组 是 数据 在 某 种 内 在 次 序 下 的 扁平 
列表 。 这 一 艳史 次 序 十 分 重要 : 知道 了 数据 在 数组 中 的 确定 位 置 , 我 们 就 能 以 0 (1) 
的 复杂 度 得 到 它 ! 另外 , 数组 可 以 有 多 种 实现 方式 。 下 面 是 列表 和 元 组 的 另 一 个 区 
别 : 列表 是 动态 的 数组 ， 而 元 组 则 是 静态 的 数组 。 

让 我 们 回顾 一 下 之 前 的 定义 。 一 台 计 算 机 的 系统 内 存 可 以 被 看 作 是 一 系列 编 了 
号 的 桶 ， 每 个 桶 可 以 存放 一 个 数字 。 这 些 数字 可 以 被 用 来 代表 任何 我 们 关心 的 
变量 (整数 、 浮 点 数 、 字 符 串 ， 或 其 他 数据 结构 )， 因 为 它们 只 是 引用 了 数据 被 
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保存 在 内 存 中 的 位 置 。 


当 我 们 想 要 创建 一 个 数组 (也 就 是 一 个 列表 或 元 组 ) 时 ,我 们 首先 必须 分 配 一 块 系 
统 内 存 (其 每 一 段 都 将 被 当成 是 一 个 整 型 大 小 的 指向 实际 数据 的 指针 )。 这 需要 进 
入 内 核 , 操作 系统 的 子 进 程 ， 去 申请 使 用 NN 个 巷 线 的 桶 。 图 3-1 的 例子 显示 了 一 个 
大 小 为 6 的 列表 的 系统 内 存 布 局 。 注 意 在 Python 中 列表 还 记录 了 它们 的 大 小 ， 所 
以 在 分 配 包 第 一 个 元 素 是 列表 的 长 度 。 



































人 
列表 保留 的 内 存 











图 3-1 一 个 长 度 为 6 的 数组 的 系统 内 存 布局 示例 


为 了 能 在 我 们 的 列表 中 查询 任意 指定 元 素 ， We 
以 及 放 数 据 的 起 始 桶 是 哪个 即 可 。 因 为 所 有 的 数据 都 占据 同样 大 小 的 空间 (一 
“ 桶 ”， 或 者 更 确切 地 说 ， 一 个 整 型 大 小 的 指向 实际 数据 的 指针 ) ， 我 们 不 二 
任何 关于 被 存储 数据 的 类 型 的 信息 就 能 够 进行 计算 。 
问题 
如 果 你 知道 你 的 N 元 素 列表 从 哪里 开始 ， 那 么 你 如 何 查 找 列表 中 任 
意 的 元 素 ? 





假设 我 们 需要 获取 数组 的 第 一 个 元 素 , 只 需要 去 第 一 个 桶 , M+1, 并 读 出 其 中 的 值 。 
(译注 : 原文 这 里 是 M, 但 是 根据 上 下 文 应 为 Mt1。) 另 一 方面 ， 如 果 我 们 需要 数组 
的 第 五 个 元 素 ， 可 以 去 位 于 M+5 的 桶 并 读 取 其 内 容 。 总 而 言 之 ， 如 果 我 们 想 要 获 
取 数 组 的 第 i 个 元 素 ， 就 去 桶 Mti。 也 就 是 说 ， 只 要 我 们 的 数据 保存 在 连续 的 桶 
里 且 知道 数据 的 顺序 ， 就 能 一 步 (0 (1) ) 定位 到 数据 所 在 的 桶 ， 无 论 我 们 的 数组 
有 多 大 ( 见 例 3-1)。 













































































@ 在 64 位 计算 机 里 ，12KB 内 存 可 以 给 你 725 个 桶 ， 而 52GB 内 存 可 以 给 你 3 250 000 000 个 桶 ! 
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例 3-1 对 不 同 大 小 的 列表 进行 查询 的 时 间 
>>> %%timeit 1 = Fange(10) 


oe R32 


10000000 loops, best of 3: 75.5 ns per loop 
>>> 
>>> %%timeit 1 = range(10000000) 

: 1[100000] 


et best of 3: 76.3 ns per loop 
如 果 我 们 拿 到 的 是 一 个 未 知 次 序 的 数组 , 又 该 如 何 获取 某 个 元 素 ? 如 果 是 次 序 已 知 
的 数组 , 我 们 可 以 直接 查询 指定 的 值 。 而 在 次 序 未 知 的 情况 下 ,我 们 必须 进行 搜索 
操作 。 解 决 这 个 问题 最 基本 的 方法 叫 “ 线 性 搜索 "， 我 们 遍历 数组 中 的 每 一 个 元 素 
并 检查 其 值 是 否 为 我 们 想 要 的 ， 见 例 3-2。 


例 3-2 对 列表 进行 线性 搜索 


def linear search (needle, array): 



































for i, item in enumerate (array): 
if item == needle: 





return i 
return -1 


这 个 算法 的 最 差 情 况 性 能 是 0(n) 。 最 差 情况 发 生 在 当 我 们 搜索 的 东西 不 存在 于 数组 
中 时 。 为 了 知道 我 们 搜索 的 元 素 不 存在 于 数组 中 ,我 们 必须 对 所 有 的 元 素 进行 检查 。 
最 终 我 们 走 到 了 最 后 的 return -1 语句 。 事 实 上 ， 这 个 算法 正 是 list .index () 
使 用 的 算法 。 


唯一 提升 速度 的 方法 是 了 解数 据 如 何 存放 在 内 存 中 ,或 者 说 了 解 存放 我 们 数据 的 桶 
的 组 织 方式 。 比 如 ， 散 列表 , 一 个 用 于 实现 字典 和 集合 的 基本 数据 结构 ， 通 过 丢弃 
数据 的 原始 次 序 并 指定 另外 一 种 次 序 ， 或 者 更 确切 地 说 ， 另 外 一 种 数据 组 织 方式 ， 
能 够 以 0(1) 的 复杂 度 解 决 这 个 问题 。 又 比如 说 ， 如 果 你 的 数据 是 排 过 序 的 ， 每 一 
个 元 素 都 大 于 (或 小 于 ) 位 于 其 左边 (或 右边 ) 的 相 邻 元 素 ， 那 么 一 个 特 化 的 搜索 
算法 可 以 将 你 的 搜索 时 间 降 至 0 (1og n) 。 我 们 之 前 的 常数 时 间 的 查找 不 需要 排序 
这 一 步骤 ， 然 而 在 某 些 时 候 ， 先 排序 后 搜索 是 最 佳 的 选择 (特别 是 因为 这 可 以 让 搜 
索 算 法 更 为 灵活 且 人 允许 你 创 出 新 的 搜索 方式 ) 。 

问题 

给 定 下 列 数据 ， 写 一 个 算法 找到 值 61 的 索引 : 

[9 LB 8 295 
已 知 数据 经 过 排序 ， 你 如 何 可 以 做 得 更 快 ? 
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提示 : 如 果 你 将 数组 对 半分 ， 你 知道 左 半边 所 有 的 值 都 小 于 右 半 边 
最 小 的 元 素 。 你 可 以 利用 这 点 ! 


3.1 一 个 更 有 效 的 搜索 


前 文中 已 经 暗示 了 ， 如 果 我 们 先 对 我 们 的 数据 进行 排序 ， 使 得 所 有 位 于 某 个 元 素 左 
边 的 其 他 元 素 都 小 于 (或 大 于 ) 它 ， 那 么 就 可 以 获得 更 好 的 搜索 性 能 。 对 象 的 比较 
是 通过 对 象 的 魔法 函数 “eq 和 1t _ 进行 的 ,用户 对 象 可 以 自 定义 这 两 个 函数 。 
备 忘 
没有 ”eq 和 1t 方法 ,一 个 用 户 对 象 就 只 能 跟 同 类 型 的 对 象 比 
较 且 比 的 是 对 象 实 例 在 内 存 中 的 地 址 。 





















































高 效 搜索 必需 的 两 大 要 素 是 排序 算法 和 搜索 算法 。Python 列表 有 一 个 内 建 的 排序 
算法 使 用 了 Tim 排序 。Tim 排序 可 以 在 最 佳 情况 下 以 o (n) (最 差 情况 下 则 是 o (n 
Iog n) ) 的 复杂 度 排序 。 它 运用 了 多 种 排序 算法 。 对 于 给 定 的 数据 ， 它 使 用 探 
索 法 猜测 哪个 算法 的 性 能 最 优 (更 确切 地 说 , 它 混用 了 插入 排序 和 合并 排序 算法 ) 
来 达到 这 样 的 性 能 。 


一 旦 一 个 列表 被 排序 , 我 们 就 可 以 用 二 分 搜索 找到 我 们 的 目标 ( 例 3-3)， 其 平均 情 
况 复 杂 度 是 0 (Log n) 。 它 首先 查询 位 于 列表 中 点 的 值 并 和 目标 值 比较 。 如 果 中 点 
值 小 于 目标 值 ， 我 们 就 继续 考察 右 半边 列表 ,我 们 不 断 将 列表 二 分 ， 直 至 找到 目标 
值 或 发 现 该 值 不 存在 于 列表 。 结果 就 是 我 们 不 需要 像 线性 搜索 那样 读 取 列 表 中 所 有 
的 元 素 ， 而 仅仅 读 取 了 一 个 子 集 。 


例 3-3 对 已 排序 列表 的 高 效 搜索 一 一 二 分 搜索 


def binary search (needle, haystack): 
imin, imax = 0, len (haystack) 
while True: 
if imin >= imax: 
return -1 
midpoint = (imin + imax) // 2 
if haystack[midpoint] > needle: 
imax = midpoint 
elif haystack[midpoint] < needle: 
imin = midpoint+1 
else: 
return midpoint 
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中 


这 个 方法 使 得 我 们 无 须 求助 重量 级 的 字典 解决 方案 就 能 够 查找 列表 中 的 元 素 。 特 
别 是 当 列表 本 身 就 已 经 排 过 序 的 情况 下 ， 用 二 分 搜索 进行 对 象 查 找 (复杂 度 
n) ie ee (虽然 字典 查找 复杂 度 
是 0( 典 转换 复杂 度 却 是 0(n) 。 而 且 字 典 要 求 没有 重复 的 键 ， 你 可 能 不 希 
0 样 的 限制)。 


另外 , 使 用 bisect 模块 可 以 进一步 简化 这 一 流程 , 它 提供 了 一 个 简便 的 函数 让 你 
可 以 在 保持 排序 的 同时 往 列 表 中 添加 元 素 , 以 及 一 个 高 度 优化 过 的 二 分 搜索 算法 函 
数 来 查找 元 素 。 它 提供 的 函数 可 以 将 新 元 素 直 接 插 入 正确 的 排序 位 。 在 列表 始终 排 
序 的 情况 下 , 我 们 可 以 轻松 找到 需要 的 元 素 (示例 代码 可 以 在 bisect 模块 的 文档 
中 找到 )。 另 外 ， 我 们 可 以 非常 迅速 地 用 bisect 找到 跟 我 们 的 目标 值 最 接近 的 元 
素 〈 例 3-4) 。 这 个 功能 对 于 比较 两 个 相似 但 不 完全 一 样 的 数据 集 来 说 极其 有 用 。 


例 3-4 用 bisect 模块 在 列表 中 查询 最 接近 目标 的 值 


import bisect 
import random 






























































def find closest (haystack, needle): 
# bisect.bisect left will return the first value in the haystack 
# that is greater than the needle 
i = bisect.bisect left (haystack, needle) 
if i == len (haystack): 
return i -1 
elif haystack[i] == needle: 
return i 
elif i > 0: 
;二 "二 
# since we Know the value is larger than needle (and vice versa for the 
# value at j), we don't need to use absolute values here 
if haystack[i] - needle > needle - haystack[j]: 
return J 
return i 


important numbers = 

for i in xrange (10): 
new number = random.randint (0, 1000) 
bisect.insort (important numbers, new number) 


[] 


# important numbers will already be in order because we inserted new elements 
# with bisect.insort 





print important numbers 


closest index = find closest(important numbers, -250) 
print "Closest value to -250: ", important numbers[lclosest index] 
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closest index = find closest (important numbers, 500) 
print "Closest value to 500: ", important numbersl[lclosest index] 


closest index = find closest (important numbers, 1100) 
print "Closest value to 1100: ", important numbers[lclosest index] 


总 的 来 说 , 本 节 涉及 了 编写 高 效 代码 的 基本 原则 : 选择 正确 的 数据 结构 并 坚持 使 用 
它 ! 虽然 对 于 某 个 特定 操作 来 说 也 许 还 存在 更 高 效 的 数据 结构 , 但 是 在 这 些 数 据 结 
构 之 间 进 行 转换 的 代价 可 能 会 抵消 效率 上 的 增益 。 


3.2 ”列表 和 元 组 


如 果 列 表 和 元 组 都 使 用 了 相同 的 数据 结构 , 那么 两 者 之 间 还 有 什么 区 别 ? 主 要 区 别 
总 结 如 下 : 


1. 列表 是 动态 数组 ， 它 们 可 变 且 可 以 重 设 长 度 (改变 其 内 部 元 素 的 个 数 )。 
2. 元 组 是 静态 数组 ， 它 们 不 可 变 ， 且 其 内 部 数据 一 旦 创建 便 无 法 改变 。 


3. 元 组 缓存 于 Python 运行 时 环境 ， 这 意味 着 我 们 每 次 使 用 元 组 时 无 须 访 问 内 核 去 
分 配 内 存 。 


这 些 区 别 揭示 了 两 者 在 设计 哲学 上 的 不 同 : 元 组 用 于 描述 一 个 不 会 改变 的 事物 的 多 
个 属性 ,而 列表 可 被 用 于 保存 多 个 互相 独立 对 象 的 数据 集合 。 比 如 ,保存 一 个 电话 
号 码 适合 用 元 组 : 它们 不 会 改变 ， 如果 改 变 则 意味 着 他 们 代表 了 一 个 新 的 对 象 ， 也 
就 是 另 一 个 电话 号 码 。 同 样 , 保存 一 个 多 项 式 的 系数 适合 用 元 组 ， 因 为 不 同 的 系数 
代表 了 不 同 的 多 项 式 。 另 一 方面 , 保存 当前 正在 阅读 本 书 的 人 的 名 字 更 适合 用 列表 : 
虽然 数据 的 内 容 和 大 小 时 刻 在 发 生变 化 ， 但 始终 表示 同一 个 概念 。 


值得 提醒 的 是 , 列表 和 元 组 都 可 以 接受 混合 类 型 。 我 们 会 看 到 ,这 会 带 来 一 些 额 外 
的 开销 并 减少 一 些 可 能 的 优化 。 如果 我 们 强制 要 求 所 有 的 数据 都 是 同一 个 类 型 ， 那 
么 就 可 以 避免 这 些 开销 。 我 们 将 在 第 6 章 讨论 如 何 通 过 使 用 numpy 降低 内 存 和 计 
算 的 开销 。 另 外 ， 对 于 非 数字 的 数据 ， 还 有 一 些 其 他 模块 ， 如 blist 和 array 也 
能 够 减少 这 些 开 销 。 这 暗示 了 我 们 将 在 后 续 章 节 介 绍 的 高 性 能 编程 的 一 个 主要 要 
点 : 通用 代码 会 比 为 某 个 特定 问题 设计 的 代码 慢 很 多 。 


另外 , 跟 列 表 可 以 改变 大 小 及 内 容 不 同 , 元 组 的 不 可 改变 性 使 其 成 为 了 一 个 非常 轻 
量 级 的 数据 结构 。 这 意味 着 存储 它们 不 需要 很 多 的 内 存 开销 , 而 且 对 它 的 操作 也 非 
常 的 直观 。 我 们 将 会 看 到 列表 的 可 变性 的 代价 在 于 存储 它们 需要 额外 的 内 存 以 及 使 
用 它们 需要 额外 的 计算 。 
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人 列表 ?为 什么 
1. 前 20 个 质数 。 

2. 编程 语言 的 名 字 。 

3. 一 个 人 的 年 龄 、 体 重 、 身 高 。 

4， 一 个 人 的 生日 和 出 生地 。 

S， 某 次 台球 游戏 的 结果 

6. 一 系列 台球 游戏 的 结果 


组 ， 因 为 数据 是 静态 的 且 不 会 改变 。 

2. 列表 ， 因 为 数据 集会 不 停 增长 。 

3 表 ， 因 为 这 些 值 会 被 更 新 。 

4. 元 组 ， 因 为 这 些 信 息 是 静态 的 且 不 会 改变 。 

5. 元 组 ， 因 为 数据 是 静态 的 。 

6. 列表 ， 因 为 会 有 更 多 游戏 进行 (事实 上 ， 我 们 可 以 使 用 一 个 元 组 
的 列表 。 因 为 单个 游戏 的 数据 不 会 改变 ， 但 是 随 着 游戏 次 数 的 上 升 ， 
我 们 会 需要 增加 列表 的 长 度 )。 





3.2.1 动态 数组 : 列表 
一 旦 我 们 创建 了 列表 ， 我 们 就 可 以 根据 需要 随意 改变 其 内 容 : 


>>> numbers = [5, 8, 1, 3, 2, 6] 
>>> numbers[2] = 2*numbers[0] # ©@ 
>>> numbers 

[Sy .87 L007 By 2 509 


@ 如 前 所 述 , 这 个 操作 是 0(1) , 因为 我 们 可 以 立即 找到 第 0 个 和 第 2 个 数据 保存 
的 位 置 。 


另外 ， 我 们 可 以 给 列表 添加 新 的 数据 来 增加 其 大 小 : 


>>> len (numbers) 

6 

>>> numbers.append (42) 
>>> numbers 

[S87 0 2672 
>>> len (numbers) 

7 
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这 是 因为 动态 数组 支持 resize 操作 ， 可 以 增加 数组 的 容量 。 当 一 个 大 小 为 N 的 
列表 第 一 次 需要 添加 数据 时 ，Python 会 创建 一 个 新 的 列表 ， 足 够 存放 原来 的 N 个 
元 素 以 及 额外 需要 添加 的 元 素 。 不 过 ， 实 际 分 配 的 并 不 是 N+1 个 元 素 , 而 是 M 个 ， 
M > N， 这 是 为 了 给 未 来 的 添加 预 留 空 间 。 然 后 旧 列 表 的 数据 被 复制 到 新 列表 中 ， 
旧 列 表 则 被 销毁 。 从 设计 理念 上 来 说 ,第 一 次 的 添加 可 能 会 是 后 续 多 次 添加 的 开始 ， 
通过 预 留 空间 的 做 法 , 我 们 就 可 以 减少 这 一 分 配 空间 的 操作 的 次 数 以 及 内 存 复 制 的 
次 数 。 这 一 点 非常 重要 ， 因 为 内 存 复制 可 能 非常 吊 贵 ,特别 是 当 列表 大 小 开始 增长 
以 后 ,图 3-2 显示 了 在 Python 2.7 中 这 一 超额 分 配 的 做 法 。 分 配 空间 的 公式 见 例 3-5。 










































































ee 列表 的 超额 分 配 


1269 


46696 





列表 的 长 度 








图 3-2 ”图 中 显示 了 对 于 一 个 特定 大 小 的 列表 会 分 配 多 少 个 额外 的 元 素 
例 3-5 Python 2.7 的 列表 空间 分 配 公式 


M= (N>> 3) + (IN<9?33 : 6) 


N 0 ‘I=4 5°8. 9=16. L172: 26-35, B646 2 391=T120 





M 0 4 8 16 25 35 46 5 120 
当 我 们 需要 添加 数据 时 , 我 们 可 以 直接 利用 额外 的 空间 并 增加 列表 的 有 效 容量 , N。 
我 们 继续 添加 数据 ，N 会 继续 增长 直到 N == M。 此 时 ， 没 有 额外 的 空间 给 我 们 插 
入 , 我 们 必须 创建 一 个 拥有 更 多 额外 空间 的 新 列表 。 这 个 新 列表 的 额外 空间 大 小 如 
例 3-5 的 公式 所 示 ， 然 后 我 们 将 旧 数 据 复制 进 新 的 空间 。 


这 一 系列 的 事件 见 图 3-3。 该 图 显示 了 例 3-6 中 列表 1 的 各 种 操作 。 
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例 3-6 列表 大 小 的 改变 


1 去 [1; 有 2] 
for i in range (3, 7): 
1 .append (i) 
en 


这 一 超额 分 配 发 生 在 第 一 次 往 列表 里 添加 元 素 时 。 在 一 个 列表 被 直接 
创建 时 ， 如 前 例 ， 分 配 的 元 素数 量 是 完全 按 需 的 。 





额外 分 配 的 空间 一 般 来 说 非常 小 , 但 累加 起 来 就 不 可 和 忽视。 当 你 在 维护 很 多 小 列表 或 一 
个 非常 大 的 列表 时 ， 这 一 效果 会 变 得 十 分 显著 。 如 果 我 们 维护 1 000 000 个 列表 ， 每 个 
列表 都 包含 10 个 元 素 ， 那 么 我 们 可 能 会 假设 占用 了 10 000 000 个 元 素 的 内 存 。 但 是 如 
果 在 构建 列表 时 用 了 append 操作 ， 实 际 占用 的 内 存 可 能 是 16 000 000 个 元 素 。 同 样 ， 
对 于 一 个 拥有 100 000 000 个 元 素 的 大 列表 ， 实 际 分 配 的 可 能 是 112 500 007 个 元 素 ! 









































1=[12] 
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3.2.2 ”静态 数组 : 元 组 
元 组 固定 且 不 可 变 。 这 意味 着 一 旦 元 组 被 创建 ， 和 列表 不 同 , 它 的 内 容 无 法 被 修改 
或 它 的 大 小 也 无 法 被 改变 : 
>>> 七 = (1,2,3,4) 
>>> 七 [0] = 5 
Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 
TypeError: 'tuple' object does not support item assignment 


虽然 它们 不 支持 改变 大 小 ， 但 是 我 们 可 以 将 两 个 元 组 合并 成 一 个 新 元 组 。 这 一 
操作 类 似 列表 的 resize 操作 ， 但 我 们 不 需要 为 新 生成 的 元 组 分 配 任何 额外 的 




















空间 : 
>>> 1 (L273A4) 
> 2 = (D7 07 778) 
> 七 必 
(1，2，3，4，5，6，7，8) 








如 果 我 们 将 其 跟 列 表 的 append 操作 比较 , 我 们 会 看 到 它 的 复杂 度 是 o (n) 而 不 是 
列表 的 0 (1) 。 这 是 因为 对 元 组 每 添加 一 个 新 元 素 都 会 有 分 配 和 复制 操作 ， 而 不 是 
像 列表 那样 仅 在 额外 的 空间 耗 尽 时 发 生 。 所 以 , 元 组 并 没有 提供 一 个 类 似 append 
的 自 增 操作 ， 任 意 两 个 元 组 相 加 始终 返回 一 个 新 分 配 的 元 组 。 


不 为 改变 大 小 保存 额外 空间 带 来 的 好 处 是 使 用 了 更 少 的 资源 。 一 个 使 用 过 append 
操作 的 大 小 为 100000000 的 列表 实际 上 占用 了 112500007 的 元 素 的 内 存 , 而 保存 同 
样 数据 的 元 组 始终 占用 100000000 个 元 素 的 内 存 。 这 使 得 元 组 对 于 静态 数据 是 一 个 
轻 量 级 且 更 好 的 选择 。 


另外 ,即使 我 们 创建 的 列表 并 没有 使 用 appeng (也 就 是 并 没有 append 操作 导致 
的 额外 空间 )， 它 占用 的 内 存 供 放大 于 保存 同样 数据 的 元 组 。 这 是 因为 列表 需要 记 
住 更 多 关于 它们 自身 状态 的 信息 来 进行 高 效 的 resize。 虽然 这 一 额外 的 信息 很 少 
( 仅 一 个 额外 元 素 ) ， 如 果 我 们 有 几 百 万 个 列表 ， 累 加 起 来 也 不 可 忽视 。 


元 组 的 静态 特性 的 另 一 个 好 处 体现 在 一 些 会 在 Python 后 台 发 生 的 事 : 资源 缓存 。 
Python 是 一 门 垃圾 收集 语言 ， 这 意味 着 当 一 个 变量 不 再 被 使 用 时 ，Python 会 将 该 
变量 使 用 的 内 存 释 放 回 操作 系统 ， 以 供 其 他 程序 (或 变量 ) 使 用 。 然 而 ， 对 于 长 度 
为 1~20 的 元 组 ， 即 使 它们 不 再 被 使 用 ,它们 的 空间 也 不 会 立刻 被 还 给 系统 ， 而 是 
留待 未 来 使 用 。 这 意味 着 当 未 来 需要 一 个 同样 大 小 的 新 元 组 时 , 我 们 不 再 需要 向 操 
作 系 统 申请 一 块 内 存 来 存放 数据 ， 因 为 我 们 已 经 有 了 预 留 的 内 存 。 
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这 看 上 去 可 能 只 是 一 个 细微 的 好 人 处, 但 实际 上 是 元 组 一 个 很 神奇 的 地 方 : 它们 可 以 
被 轻松 迅速 地 创建 ， 因 为 它们 可 以 避免 跟 操 作 系统 打交道 ， 而 后 者 很 花 时 间 。 例 
3-7 显示 了 初始 化 一 个 列表 比 初始 化 一 个 元 组 慢 5.1 倍 一 一 如 果 是 在 一 个 循环 内 部 ， 
这 点 差别 会 很 快 累加 起 来 ! 


例 3-7 初始 化 列表 和 元 组 的 时 间 对 比 





























>>> Stimeit 1 = [0,1,2,3,4,5,6,7,8,9] 
1000000 loops, best of 3: 285 ns per loop 
>>> gtimeit t = (0,1,2,3,4,5,6,7,8,9) 


10000000 loops, best of 3: 55.7 ns per loop 


3.3 小 结 


当 你 的 数据 有 一 个 内 在 次 序 时 ， 使 用 列表 和 元 组 作为 你 的 数据 结构 可 以 让 速度 更 
快 、 开 销 更 低 。 数 据 的 内 在 次 序 使 你 可 以 回避 在 这 些 数据 结构 内 部 查询 的 问题 : 

如 果 次 序 已 知 ,那么 查询 操作 是 0(1) ,避免 了 昂贵 的 0(n) 的 线性 搜索 。 列 表 可 
以 改变 大 小 ， 你 需要 确切 知道 超额 分 配 的 大 小 来 确保 数据 集 仍然 可 以 被 保存 在 内 
存 里 。 另 一 方面 ， 元 组 可 以 迅速 被 创建 ， 且 无 须 列 表 的 额外 开销 ， 代 价 则 是 不 可 
修改 。 在 第 6.1 节 中 , 我 们 会 讨论 如 何 通 过 为 列表 预 分 配 内 存 来 减轻 频繁 append 
给 Python 列表 带 来 的 负担 ， 并 学 习 一 些 其 他 的 优化 手段 来 帮助 管理 这 些 问 题 。 


在 下 一 章 , 我 们 将 浏览 字典 的 计算 属性 , 它 以 额外 的 开销 为 代价 解决 了 无 序数 据 的 
搜索 /查询 问题 。 
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读 完 本 章 之 后 你 将 能 够 回答 下 列 问题 
。 字典 和 集合 各 自 适 用 于 什么 情况 ? 
。 字典 和 集合 的 共同 点 是 什么 ? 
e。 字典 的 开销 在 哪里 ? 
。 ”我 如 何 优化 字典 的 性 能 ? 
。 ”Python 如 何 使 用 字典 记录 命名 空间 ? 
如 果 你 有 一 些 无 序数 据 但 它们 可 以 被 唯一 的 索引 对 象 来 引用 (任何 可 以 被 散 列 的 类 
型 都 可 以 成 为 索引 对 象 ， 索 引 对 象 通常 会 是 一 个 字符 串 ) ， 那 么 集合 和 字典 就 是 理 
想 的 数据 结构 。 索 引 对 象 被 称 为 “ 键 ”， 而 数据 被 称 为 “ 值 ” 。 字 典 和 集合 几乎 一 模 
样 ， 只 是 集合 实际 上 并 不 包含 值 : 一 个 集合 只 不 过 是 一 堆 键 的 组 合 。 顾 名 思 义 ， 
集合 非常 适用 于 集合 操作 。 
备 忘 
可 以 被 散 列 的 类 型 是 一 种 同时 实现 了 hash 魔法 函数 以 及 
eq 或 ”cmp 两 者 之 一 的 类 型 。 所 有 的 Python 原生 类 型 都 实 
现 了 它们 ， 而 用 户 自 定义 类 则 都 有 默认 的 值 。4.1.4 节 中 会 介绍 更 多 
细节 。 







































































在 上 一 章 ， 我 们 看 到 对 次 序 未 知 的 列表 /元 组 的 最 优 查询 时 间 是 O(1og n) (使 用 
搜索 操作 ) ， 而 字典 和 集合 基于 键 的 查询 则 可 以 带 给 我 们 0 (1) (译注 : 原文 这 里 
为 0(n)，, 根据 上 下 文 判 断 应 为 0(1) ) 的 查询 时 间 。 除 此 之 外 ， 和 列表 /元 组 一 样 ， 
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字典 和 集合 的 插入 时 间 是 0 (1) 。 在 4.1 节 中 我 们 会 看 到 ,为 了 达到 这 一 速度 , 它 
们 在 底层 所 使 用 的 数据 结构 是 一 个 开放 地 址 散 列 表 。 

然而 ,使 用 字典 和 集合 有 其 代价 。 首 先 它们 通常 会 占用 更 多 的 内 存 。 同 时 ,虽然 插 
入 /查询 的 复杂 度 是 0 (1) , 但 实际 的 速度 极 大 取决 于 其 使 用 的 散 列 函数 。 如 果 散 列 
函数 的 运行 速度 较 慢 ， 那 么 在 字典 和 集合 上 进行 的 任何 操作 也 会 相应 变 慢 。 







































































让 我 们 看 一 个 例子 。 假设 我 们 需要 存储 一 个 电话 筹 中 每 个 人 的 联系 信息 , 并且 能 够 
在 将 来 轻松 回答 问题 “John Doe 的 电话 号 码 是 什么 ? ”如 果 使 用 列表 , 我 们 会 将 电 
话 号 码 和 名 字 依 次 存储 并 在 需要 查询 时 检索 整个 列表 ， 如 例 4-1 所 示 。 


例 4-1 列表 查询 电话 禾 
def find phonenumber (phonebook, name): 
for n, p in phonebook: 

















if n == name: 
return p 
return None 


phonebook = | 
("John Doe", "555-555-5555"), 
("Albert Einstein", "212-555-5555"), 


] 
print "John Doe's phone number is", find phonenumber (phonebook, "John Doe") 


备 忘 
我 们 也 可 以 将 列表 排序 并 用 bisect 模块 获得 0 (log n) 的 性 能 。 








但 如 果 使 用 字典 , 我 们 只 需要 以 名 字 为 “ 键 ”"， 以 电话 号 码 为 “ 值 ”， 如 例 4-2 所 示 。 
这 让 我 们 得 以 通过 简单 查询 就 获得 我 们 需要 的 值 的 直接 引用 , 而 不 是 去 数据 集中 读 
取 每 一 个 值 。 

例 4-2 字典 查询 电话 竹 


phonebook = { 
vgohn. Doelvs "S58"y 
"Albert Einstein" : "212-555-5555", 











} 


rint "John Doe's phone number is", phonebook["John Doe"] 
p p 


























@ 我 们 将 在 4.1.4 节 中 讨论 , 字典 和 集合 十 分 依赖 它们 的 散 列 函数 。 如 果 它 们 的 散 列 函数 对 某 个 数据 类 型 不 
具有 0(1) 的 计算 时 间 ， 那 么 包含 该 数据 类 型 的 字典 和 集合 都 不 具有 0 (1) 保证。 
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对 大 型 电话 短 来 说 ， 字 典 的 0(1) 查询 和 列表 的 0 (n) 线性 搜索 (或 使 用 bisect 
模块 后 的 O(log n) ) 之 间 的 区 别 是 十 分 可 观 的 。 

问题 

创建 一 个 脚本 来 比较 bisect 列表 和 字典 在 解决 电话 簿 查询 问题 上 
的 时 间 。 当 电话 簿 大 小 增长 时 ， 时 间 会 如 何 变 化 ? 








另 一 方面 ， 如 果 我 们 想 要 回答 的 问题 是 “我 的 电话 短 中 有 多 少 个 不 同 的 名 字 ? ”我 
们 就 可 以 使 用 集合 的 能 力 。 记 住 集合 就 是 一 堆 键 的 组 合 一 一 这 正 是 我 们 需要 给 数据 
添加 的 属性 。 这 跟 基 于 列表 的 解决 方案 是 一 个 鲜明 的 对 比 , 为 了 给 列表 加 上 这 一 属 
性 ， 我 们 将 不 得 不 拿 出 每 一 个 名 字 并 和 其 他 所 有 名 字 进 行 比较 ， 见 例 4-3。 


例 4-3 用 列表 和 集合 查询 不 同 的 名 字 


def list unique names (Phonebook) : 


























unique names = [] 


for name, phonenumber in phonebook: #@ 
first name, last name = name.split(" ", 1) 
for unique in unique names: #@ 
if unique == first name: 
break 
else: 


unique names.append (first name) 
return len(unique names) 


def set unique names (phonebook): 


unique names = set() 

for name, phonenumber in phonebook: #® 
first name, last name = name.split(" ", 1) 
unique names.add (first name) #@ 


return len(unique names) 


phonebook = |[ 
(JONn ‘Doe 950=95550=5555"), 
("Albert Einstein", "212-555-5555"), 
("John Murphey", "202-555-5555"), 
("Albert Rutherford", "647-555-5555"), 
("Elaine Bodian", "301-555-5555"), 

] 


print "Number of unique names from set method:", set unique names (phonebook) 
print "Number of unique names from list method:", list unique names (phonebook) 


@@ 我 们 必须 遍历 电话 短 的 每 一 项 ， 所 以 这 一 循环 的 代价 是 0 (n)。 
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@ 这 里 , 我 们 必须 比较 当前 的 名 字 和 所 有 已 知 的 名 字 。 如 果 它 是 一 个 新 名 字 ， 则 加 入 
已 知名 字 列 表 。 我 们 继续 遍历 列表 进行 这 一 步骤 ， 直 到 电话 敌 中 所 有 的 项 都 被 遍历 。 


@ 对 于 集合 ， 我 们 只 需要 简单 地 将 当前 名 字 添 加 进 集合 ， 而 无 须 遍 历 所 有 的 已 知 
名 字 。 因 为 集合 保证 了 它 包含 的 键 的 唯一 性 ， 如 果 你 尝试 添加 一 个 已 有 的 项 , 该 项 
不 会 被 添加 进 集合 。 另 外 ， 这 一 操作 的 代价 是 0 (1)。 


列表 算法 的 内 循环 会 遍历 unique_names，, 它 从 空 列表 开始 增长 ， 在 最 坏 情况 
下 ， 所 有 的 名 字 都 是 唯一 的 ， 那 么 它 最 终 会 增长 到 跟 电话 短 一 样 大 小 。 这 可 以 
被 看 作 是 在 一 个 不 断 增 长 的 列表 上 线性 搜索 电话 短 中 的 每 一 个 名 字 。 因 此 ， 完 
整 算法 具有 0 (n log mn) 的 复杂 度 ， 因 为 外 循环 的 贡献 是 O (n) 而 内 循环 的 贡 
献 则 是 oO(1og n)。 


另 一 方面 ， 集 合算 法 没有 内 循环 ， 无 论 电 话 德 多 大 ，set .adad 操作 都 可 以 在 一 个 
固定 的 操作 次 数 中 完成 ， 是 一 个 代价 为 0(1) 的 过 程 (关于 这 点 ， 我 们 在 讨论 字 
和 集合 的 实现 时 会 有 一 些 细节 方面 的 警告 )。 因 此 ， 对 于 这 一 算法 复杂 度 的 唯一 非 
常数 贡献 是 对 电话 德 的 遍历 ， 整 个 算法 的 复杂 度 就 是 o tn) 。 

我 们 用 一 个 具有 10 000 个 条 目 以 及 7 422 个 唯一 名 字 的 电话 禾 对 这 两 个 算法 进行 计 
时 ， 我 们 会 看 到 0(n) 和 o (n 1og n) 能 有 多 大 的 差距 ; 


>>> stimeit list unique names (large phonebook) 
1 loops, best of 3: 2.56 s per loop 












































































































































>>> stimeit set unique names (large phonebook) 
100 loops, best of 3: 9.57 ms per loop 


也 就 是 说 ,集合 算法 的 速度 是 列表 的 267 倍 ! 另外 ， 当 电话 筹 大 小 增长 时 ， 速度 的 
提升 也 在 增加 (对 于 一 个 具有 100 000 个 条 目 以 及 15 574 个 唯一 名 字 的 电话 短 ,， 这 
差距 是 557 倍 ) 。 


4.1 字典 和 集合 如 何 工 作 


字典 和 集合 使 用 散 列 表 来 获得 0(1) 的 查询 和 插入 。 能 得 到 这 一 效率 是 因为 我 们 非 
常 聪 明 地 使 用 散 列 函数 将 一 个 任意 的 键 〈 如 一 个 字符 串 或 一 个 对 象 ) 转变 成 了 一 个 
列表 的 索引 。 散 列 函数 和 列表 随后 可 以 被 用 来 决定 任意 数据 的 位 置 ， 而 无 须 搜索 。 
通过 将 一 个 数据 的 键 转化 成 某 种 可 以 被 用 作 列表 索引 的 东西 , 我 们 就 得 到 了 跟 列 表 
一 样 的 性 能 。 而 且 ， 由 于 无 须 使 用 数字 作为 索引 〈 它 本 身上 暗示 了 数据 的 某 种 顺序 )， 
我 们 可 以 用 任意 的 键 来 引用 数据 。 
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4.1.1 插入 和 获取 

为 了 创建 一 个 散 列表 , 我们 先 从 分 配 一 些 内 存 开始 , 这 一 点 和 数组 一 样 。 对 于 一 个 
数组 , 如 果 我 们 想 要 插入 数据 , 我 们 只 需要 找到 未 被 使 用 的 最 小 的 桶 并 将 我 们 的 数 
据 插 入 那里 (如果 有 必要 的 话 还 要 改变 数组 的 大 小 ) 即 可 。 对 于 散 列 表 ， 我 们 必须 
首先 弄 清楚 数据 在 这 个 连续 内 存 块 中 的 位 置 。 


新 插入 数据 的 位 置 取决 于 数据 的 两 个 属性 ， 键 的 散 列 值 以 及 该 值 如 何 跟 其 他 对 象 
比较 。 这 是 因为 当 我 们 插入 数据 时 , 首先 需要 计算 键 的 散 列 值 并 掩 码 来 得 到 一 个 有 
效 的 数组 索引 。 掩 码 是 为 了 保证 一 个 可 能 是 任意 数字 的 散 列 值 最 终 能 落 入 分 配 
的 桶 中 。 所 以 ， 如 果 我 们 分 配 了 8 个 块 的 内 存 ， 而 我 们 的 散 列 值 是 28957， 那 么 
它 将 落 入 的 桶 的 索引 是 28957 & 0b111 = 7。 如 果 我 们 的 字典 增长 到 了 需要 512 
块 内 存 ， 那 么 掩 码 就 变 成 0b11111111 (此 时 ， 我 们 会 使 用 位 于 28957 & 
0b1l1111111 的 桶 )。 现 在 我 们 需要 检查 这 个 桶 是 否 已 经 被 使 用 。 如 果 它 是 空 桶 ， 
我 们 可 以 将 键 和 值 插入 这 一 内 存 块 。 我 们 保存 键 是 为 了 在 获取 时 确保 获得 的 是 正确 
的 值 。 如 果 桶 已 经 被 使 用 ， 且 桶 内 的 值 跟 我 们 希望 插入 的 值 相等 〈 使 用 内 建 的 cmp 
进行 比较 )， 说 明 这 一 键 值 对 已 经 保存 于 散 列 表 中 ， 我 们 可 以 直接 返回 。 然 而 ， 如 
果 值 不 相等 ， 那 么 我 们 需要 找到 一 个 新 的 位 置 来 保存 数据 。 


为 了 找到 新 的 索引 ， 我 们 用 一 个 简单 的 线性 函数 计算 出 一 个 新 的 索引 ， 这 一 方法 
称 为 笑话 。Python 的 咒 探 机 制 使 用 了 原始 散 列 值 的 高 位 比特 (还 记得 对 于 之 前 那 
个 长 度 为 8 的 散 列表 ， 由 于 使 用 的 掩 码 mask = 0bl1l1l = bin(8 - 1) ,我 们 
只 用 了 最 后 3 个 bit 作为 初始 索引 )。 使 用 这 些 高 位 比特 使 得 每 一 个 散 列 值 生成 
的 下 一 可 用 散 列 序列 都 是 不 同 的 ， 这 样 就 能 帮助 防止 未 来 的 碰撞 。 生 成 新 索引 的 
算法 有 很 多 自由 的 选择 ， 不 过 ， 需 要 注意 的 是 计算 方案 要 能 访问 每 一 个 可 能 的 索 
引 使 得 数据 能 够 尽量 均匀 地 分 布 在 表 中 。 数 据 分 布 的 均匀 程度 被 称 为 “负载 因 
素 ”， 它 跟 散 列 函 数 的 粹 有 关 。 例 4-4 中 的 伪 码 描述 了 CPython 2.7 中 使 用 的 散 列 
索引 的 计算 。 


例 4-4 字典 查询 序列 
def index sequence (key，mask=0b111， PERTURB SHIFT=5): 
perturb = hash(key) #@ 
i = perturb & mask 
yield i 
while True: 
i= ((i << 2) + i + perturb + 1) 




























































































































































































































































































@ 掩 码 是 一 个 二 进 制 数 ， 用 来 截断 男 一 个 数字 。 比 如 ，0b1111101 & 0b111 = 0b101 = 5 意味 着 掩 码 
0b111 截断 了 数字 0b1111101。 这 一 操作 也 可 以 被 看 作 是 获取 一 个 数字 的 最 低 几 位 。 
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perturb >>= PER] 


yield i 


& mask 


TURB SHIFT 








@ hash 返回 的 是 一 个 整 型 ， 而 CPython 中 实际 的 C 代码 使 用 的 是 无 符号 整 型 。 因 
此 ， 这 上 段 伪 码 并 没有 100% 复 








这 一 嗅 探 函数 是 基础 的 “线性 























吊 CPython 的 行为 ， 但 它 是 一 个 不 错 的 近似 。 


嗅 探 ” 方 法 的 修改 版 。 在 线性 嗅 探 中 , 我 们 让 i = (5 





* i + 1) & mask, i 的 初始 值 是 键 的 散 列 值 ， 算 法 中 用 到 的 5 这 个 值 对 于 当前 








的 讨论 不 重要 。 重要 的 是 记 作 








的 掩 码 是 0x 


生 了 一 个 碰撞 , 同时 其 后 的 咒 探 索引 序 允 


考虑 散 列 值 








当 我 们 在 查询 某 个 键 时 也 有 一 个 类 似 的 过 程 : 给 4H 





111)。 





更 多 的 











索 。 如 果 和 该 索引 指向 的 





存在 该 数据 。 

















比特 位 来 解决 这 一 问题 。 

















FE 线性 咒 探 仅 使 用 了 散 列 值 的 最 后 儿 个 字 节 而 没有 考 
虚 其 余 字 节 (比如 ， 对 于 一 个 8 元 素 字 典 , 我 们 只 查看 了 最 后 3 个 比特 ， 因 为 当前 
这 意味 着 如 果 两 个 键 的 散 列 值 最 后 3 个 比特 相等 ， 那 么 不 仅 产 
上 也 都 是 一 样 的 。Python 使 用 的 扰动 方案 会 




















立 置 中 的 键 符合 (在 所 



































的 键 会 被 转化 为 一 个 索引 进行 检 


入 操作 时 我 们 会 保存 原始 的 键 ) ， 
那么 我 们 就 会 返回 那个 值 。 如 果 不 符合 ， 我 们 用 同一 个 方案 继续 创建 新 的 索引 , 直 
至 我 们 找到 数据 或 找到 一 个 空 











。 如 果 我 们 找到 一 个 空 桶 , 我 们 就 可 以 认为 表 里 不 


图 4-1 显示 了 往 散 列表 中 添加 数据 的 过 程 。 我 们 创建 的 散 列 函数 只 使 用 输入 的 第 一 
个 字符 。 我 们 利用 了 Python 的 ord 函数 将 输入 的 第 一 个 字符 转 成 一 个 整 型 ( 散 列 函 
数 必须 返回 整 型 )。 我 们 在 4.1.4 节 中 将 会 看 到 ，Python 为 其 大 多 数 类 型 都 提供 了 一 
个 散 列 函 数 ， 所 以 你 无 须 自 己 提供 一 个 ， 除 非 是 在 某 些 极端 情况 下 。 

















例 4-5 


def 


自 定义 散 列 函数 


class City(str): 


hash (self): 





return ord(self[0]) 





插入 键 “Barcelona” 时 发 生 了 一 个 碰撞 ， 用 例 4-4 的 方案 计算 出 一 个 新 的 索引 。 创 
建 这 个 字典 的 Python 代码 见 例 4-5。 








# We create a dictionary where we assign arbitrary values to cities 
























































data = { 
City("Rome"): 4, 
City("San Francisco"): 3, 
City("New York"): 5, 
City("Barcelona"): 2, 
} 
Q@ 5 这 个 值 来 自 线性 同 余生 成 器 (LCG) 的 一 个 属性 ， 它 被 用 来 生成 随机 数 。 
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~ 
key: Rome 
data: 4 
, key: Rome 
data: 4 








data:3 








key: San Francisco 
key: San Francisco 
data: 3 
key: Barcelona 
data: 2 


key: New York 
data: 5 


在 这 里 ,，“Barcelona” 和 “Rome” 发 生 了 散 列 碰撞 (图 4-1 显示 了 插入 时 的 结果 )。 
我 们 看 到 ， 对 于 一 个 拥有 四 个 元 素 的 字典 ， 它 的 掩 码 是 0b111。“Barcelona” 会 党 
试 使 用 索引 ord("B") & 0b1l11 = 66 & 0b1l11 = 0b1000010 & 0b111 = 
0b010 = 2。 同 样 ，“Rome” 会 尝试 使 用 索引 ord("R") & 0b1l11 = 82 & 0b111 
= 0b1010010 & 0bll1 = 0b010 = 2 






~ 
key: New York 


项 目 字典 
data: 5 


~、 
key: Barcelona a 
data: 2 SS 


图 4-1 插入 散 列表 时 发 生 碰 撞 的 结果 
































问题 

思考 下 面 的 问题 ， 讨 论 散 列 碰撞 : 

1. 查找 一 个 元 素 一 一 使 用 例 4-5 创建 的 字典 ， 对 “Johannesburg” 键 
的 查询 是 怎样 的 ?检索 的 索引 是 什么 ? 

2.， 删除 一 个 元 素 一 一 使 用 例 4-5 创建 的 字典 ， 如 何 处 理 “Rome” 键 
的 删除 ? 后 续 对 “Rome” 和 “Barcelona” 键 的 查询 会 被 如 何 处 理 ? 
3， 散 列 碰 撞 一 考虑 例 4-5 创建 的 字典 ， 如 果 有 500 个 首 字母 大 写 
的 城市 被 插入 散 列 表 ， 你 估计 会 有 多 少 次 散 列 碰撞 ? 1000 个 城市 又 
如 何 ? 你 能 和 否 想到 一 种 方法 降低 碰撞 次 数 ? 
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对 于 500 个 城市 ， 大 约 有 474 个 字典 元 素 会 跟 之 前 的 值 冲突 
( 500-26 )， 每 个 散 列 值 会 有 大 约 500 / 26 = 19.2 个 城市 与 之 关联 。 
对 于 1000 个 城市 则 是 974 次 碰撞 ， 每 个 散 列 值 有 1000 / 26 = 38.4 
个 城市 与 之 关联 。 这 是 因为 散 列 函数 只 是 简单 地 基于 首 字母 的 数 
值 ， 其 取 值 范围 为 A-2， 仅 有 26 个 独立 散 列 值 。 这 意味 着 一 次 查 
询 会 导致 最 多 38 次 子 查 询 来 找到 正确 的 值 。 为 了 修正 这 一 点 ， 我 
们 必须 考虑 城市 的 其 他 方面 来 增加 可 能 的 散 列 值 。 默 认 的 字符 串 散 
列 函 数 会 考虑 每 一 个 字符 使 散 列 值 的 可 能 取 值 范围 最 大 化 . 4.1.4 节 
中 有 更 多 解释 。 


4.1.2 删除 

当 一 个 值 从 散 列 表 中 被 删除 时 ， 我 们 不 能 简单 地 写 一 个 NULL 到 内 存 的 那个 桶 里 。 
这 是 因为 我 们 已 经 用 NULL 来 作为 嗅 探 散 列 碰撞 的 终止 值 。 所 以 , 我 们 必须 写 一 个 
特殊 的 值 来 表示 该 桶 虽 空 , 但 其 后 可 能 还 有 别 的 因 散 列 碰撞 而 插入 的 值 。 这 些 空 桶 
可 以 在 未 来 被 写 入 或 在 散 列表 改变 大 小 时 被 删除 。 


4.1.3 ”改变 大 小 
当 越 来 越 多 的 项 目 被 插入 散 列 表 时 ， 表 本 身 必须 改变 大 小 来 适应 。 研究 显示 一 个 不 
超过 三 分 之 二 满 的 表 在 具有 最 佳 空间 节约 的 同时 依然 具有 不 错 的 散 列 碰撞 避免 率 。 
因此 ， 当 一 个 表 到 达 关键 点 时 ， 它 就 会 增长 。 为 了 做 到 这 一 点 ， 需 要 分 配 一 个 更 大 
的 表 (也 就 是 在 内 存 中 预 留 更 多 的 桶 )， 将 掩 码 调整 为 适合 新 的 表 ， 旧 表 中 的 所 有 
元 素 被 重新 插入 新 表 。 这 需要 重新 计算 索引 ， 因 为 改变 后 的 掩 码 会 改变 索引 计算 结 
果 。 结 果 就 是 ， 改 大 散 列 表 的 代价 非常 昂贵 ! 不过， 因为 我 们 只 在 表 太 小 时 而 不 是 
在 每 一 次 插入 时 进行 这 一 操作 ， 分 捧 后 每 一 次 插入 的 代价 依然 是 0(1) 。 
字典 或 集合 默认 的 最 小 长 度 是 8 (也 就 是 说 ， 即 使 你 只 保存 3 个 值 ，Python 仍然 会 
分 配 8 个 元 素 )。 每 次 改变 大 小 时 ， 桶 的 个 数 增加 到 原来 的 4 倍 ， 直 至 达到 50000 
个 元 素 ， 之 后 每 次 增加 到 原来 的 2 倍 。 这 导致 了 下 面 可 能 的 大 小 : 

By BZ. ST28.. S272048 "8192,.. 327683, ALSLO0T7T2> ZOLdd, aris 
值得 注意 的 是 当 一 个 散 列表 变 大 或 变 小 时 都 可 能 发 生 改 变 大 小 。 也 就 是 说 , 如 果 散 
列表 中 足够 多 的 元 素 被 删除 ， 表 可 能 会 被 改 小 。 但 是 ， 改 变 大 小 友 发 竺 帮 攻 人 届 。 
4.1.4 散 列 函数 和 暗 
Python 对象 通常 以 散 列表 实现 ， 因 为 它们 已 经 有 内 建 的 _hash 和 cmp 函 
数 。 对 于 数字 类 型 (int 和 float)， 散 列 值 就 是 基于 它们 数字 的 比特 值 。 元 组 和 
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字符 串 的 散 列 值 基于 它们 的 内 容 。 而 另 一 方面 ,列表 不 能 被 散 列 ， 因 为 它们 的 值 可 
以 改变 。 一 旦 列表 的 值 发 生 改 变 ， 其 散 列 值 也 会 相应 改变 ， 也 就 改变 了 键 在 散 列表 
中 的 相对 位 置 。” 


用 户 自 定义 类 也 有 一 个 默认 的 散 列 和 比较 函数 。 默认 的 _ hash ”函数 使 用 内 建 的 
id 函数 返回 对 象 在 内 存 中 的 位 置 。 同 样 ，_ cmp_ ”操作 符 比较 的 也 是 对 象 在 内 存 
中 的 位 置 的 数字 值 。 


这 人 么 做 一 般 来 说 没什么 问题 , 因为 一 个 类 的 两 个 实例 一 般 是 不 同 的 , 不 会 导致 散 列 
碰撞 。 然 而 在 某 些 情况 下 我 们 会 想 要 使 用 set 或 dict 对 象 来 消除 项 目 之 间 的 此 
义 。 见 下 例 的 类 定义 : 

class Point (object): 


def. “iNit. (Self, yy 
self.x, self.y = x, y 






































如 果 我 们 用 相同 的 x 和 y 实例 化 多 个 Point 对 象 ， 它 们 在 内 存 中 是 独立 的 对 象 ， 
各 自 处 在 内 存 中 的 不 同位 置 , 也 就 有 各 自 不 同 的 散 列 值 。 这 意味 着 将 它们 放 和 一 个 
set 会 导致 它们 各 自 都 是 一 个 独立 的 项 目 : 

>>> pl = Point(1,1) 

>>> p2 = Point(1,1) 

>>> set([pl, p2]) 

set([< main .Point at Ox1l099bfc90>, < main .Point at 0x1099bfbq0>]) 

>>> Point(1,1) in set([pl, p21]) 

False 


我 们 可 以 提供 一 个 基于 对 象 内 容 而 不 是 对 象 在 内 存 中 的 位 置 的 自 定 义 散 列 函数 来 
解决 这 个 问题 。 散 列 函数 可 以 是 任意 函数 ,只 要 它 对 于 同一 个 对 象 始终 给 出 同一 个 
散 列 值 。( 散 列 函 数 对 炉 也 有 要 求 ， 我 们 后 面 会 加 以 讨论 。) 下 面 的 例子 重 定义 了 
Point 类 ， 给 出 了 我 们 期 望 的 结果 : 

class Point (object): 


def init (selfy x; Y): 
self.x, self.y = x, y 

































































def _ hash (self): 
return hash((self.x, self.y)) 





def eq (self, other): 
return self.x == other.x and self.y == other.y 


这 让 我 们 在 集合 或 字典 中 创建 的 项 目 能 够 以 Point 对 象 的 内 部 属性 而 不 是 其 在 内 
存 中 的 位 置 为 索引 : 














Q@ 更 多 信息 见 http://wiki.python.org/moin/DictionaryKeys。 
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>>> pl = Point (1,1) 
>>> p2 = Point (1,1) 

SS>>" "Set([BLr PZ] 

set([< main .Point at 0x109b95910>]) 
>>> Point(1,1) in set([pl, p21]) 

让 


之 前 我 们 讨论 散 列 碰 撞 时 提 到 , 一 个 用 户 自 定 义 的 散 列 函数 需要 让 散 列 值 均匀 分 布 
以 避免 散 列 碰撞 。 碰 撞 太 频繁 会 降低 散 列表 的 性 能 : 如 果 大 多 数 键 都 有 碰撞 ， 那 么 
我 们 需要 经 常 “ 别 探 ”其 他 索引 值 ， 有 可 能 需要 在 字典 中 访问 很 大 一 片区 域 来 寻找 
需要 的 键 。 最 坏 情况 下 ， 字 典 中 所 有 的 键 都 碰撞 ， 字 典 查询 的 性 能 变 成 cn) ， 就 
跟 搜 索 一 个 列表 一 样 。 

如 果 我 们 在 创建 散 列 函 数 时 知道 我 们 要 在 字典 中 存储 5000 个 值 ， 我 们 必须 注意 整 
个 字典 将 被 存储 在 一 个 大 小 为 32768 的 散 列表 中 ， 所 以 我 们 的 散 列 值 只 有 最 后 15 
个 比特 参与 了 索引 的 创建 (对 于 这 个 大 小 的 散 列 表 ， 掩 码 是 Pin (32768-1) = 
0b111111111111111), 


衡量 “我 的 散 列 函 数 分 布 均匀 程度 ”的 标准 被 称 为 散 列 函数 的 炉 。 炉 的 定义 是 : 


































































































$= :2 Pp(D) log(p(2)) 

















P (i) 是 散 列 函数 给 出 散 列 值 为 i 的 概率 。 当 所 有 的 散 列 值 都 具有 同样 的 被 选中 概 
率 时 炉 最 大 。 一 个 令 炉 最 大 的 散 列 函 数 被 称 为 和 类 散 列 函数 ,因为 它 保 证 了 最 低 的 
碰撞 次 数 。 

对 于 无 穷 大 的 字典 , 整数 的 散 列 函数 就 是 完美 散 列 函 数 。 这 是 因为 一 个 整数 的 散 列 
值 就 是 整数 自身 ! 一 个 无 穷 大 字典 的 掩 码 也 是 无 穷 大 ,所 以 我 们 会 使 用 散 列 值 的 所 
有 比特 。 于 是 ， 给 定 任 意 两 个 数字 ， 我 们 都 可 以 保证 它们 的 散 列 值 不 会 相等 。 


不 过 ,如 果 我 们 考虑 有 限 大 的 字典 ， 那么 我 们 将 不 再 具有 这 样 的 保证 。 比 如 ， 对 于 
一 个 具有 四 个 元 素 的 字典 , 我 们 使 用 的 掩 码 是 0b111。 那么 , 数字 5 的 散 列 值 是 5 
& 0b1l11 = 5， 而 501 的 散 列 值 是 501 & 0b111 = 5， 它 们 的 条 目 会 碰撞 。 


备 忘 

为 了 找到 大 小 为 N 的 字典 的 掩 码 , 我 们 首先 找到 能 令 该 字典 保持 三 分 之 二 
满 的 最 低 桶 数 (N * 5 / 3 )， 然 后 找到 能 满足 这 个 数字 的 最 小 字典 大 小 
( 8; 32; 128; 512; 2048; 等 等 ) 并 找到 足以 保存 这 一 数字 的 bit 的 位 数 。 比 
如 ， 如 果 N=1039， 那 么 我 们 至 少 需要 1731 个 桶 ， 这 意味 着 我 们 的 字典 
有 2048 个 桶 。 那 么 掩 码 就 是 bin(2048 - 1) = 0b11111111111. 
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对 于 有 限 大 小 的 字典 不 存在 一 个 最 佳 的 散 列 函数 。 不 过 ， 提 前 知道 散 列 值 的 范 
围 以 及 字典 的 大 小 可 以 帮助 我 们 做 出 好 的 选择 。 如 果 我 们 要 在 字典 中 存 
湛 总 共 676 个 双 小 写字 母 组 合 (aa、ab、ac 等 )， 那 么 例 4-6 就 是 一 个 好 的 散 列 
例 4-6 ”最 优 双 字 母 散 列 函数 
def twoletter hash (key) : 
offset = ord('a') 


kl, k2 = key 
return (ord(k2) - offset) + 26 * (ord(kl1l) - offset) 


当 掩 码 为 0b1111111111 时 (一 个 具有 676 个 元 素 的 字典 将 被 保存 在 一 个 长 度 为 
2048 的 散 列 表 中 ， 其 掩 码 是 bin (2048-1) = 0b1111111111)， 这 个 散 列 函数 
对 于 任意 两 个 双 小 写字 母 都 不 会 发 生 散 列 碰 撞 。 

例 4-7 十 分 明显 地 展示 了 一 个 用 户 自 定 义 类 使 用 了 坏 的 散 列 函数 的 后 果 一 一 在 这 里 ， 
一 个 坏 的 散 列 函数 (实际 上 是 最 糟糕 的 散 列 函数 !) 的 代价 是 查询 变 慢 21.8 倍 。 


例 4-7 好 坏 散 列 函 数 的 时 间 区 别 


import string 
import timeit 



























































class BadHash (str): 
def hash (self): 
return 42 


class GoodHash (str): 
def hash (self): 


mm 


This is a slightly optimized version of twoletter hash 


mm 


return ord(self[1]) + 26 * ord(self[0]) - 2619 


baddict = set() 
gooddict = set() 
for i in string.ascii lowercase: 
for J] in string.ascii lowercase: 
key = 工 + 
baddict.add (BadHash (key)) 
gooddict.add (GoodHash (key)) 


badtime = 七 Imeit.repeat ( 
"key in baddict", 
setup = "from main import baddict, BadHash; key = BadHash('zz')", 
repeat = 3, 
number = 1000000， 
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) 
goodtime = timeit.repeat!l 
"key in gooddict", 


setup = "from main import gooddict, GoodHash; key = GoodHash('zz"')", 
repeat = 3, 
number = 1000000, 

) 

print "Min lookup time for baddict: ", min(badtime) 

print "Min lookup time for gooddict: ", min(goodtime) 

# Results: 


# Min lookup time for baddict: 16.3375990391 
# Min lookup time for gooddict: 0.748275995255 


问题 
1. 证 明 对 于 一 个 有 限 字 典 (有 具有 有 限 掩 码 )， 使 用 整数 的 值 作为 其 
散 列 值 不 会 导致 碰撞 。 


2， 证 明 例 4-6 的 散 列 函 数 对 于 一 个 大 小 为 1024 的 散 列表 是 完美 的 。 
为 什么 它 对 更 小 的 散 列 表 不 完美 ? 


4.2 字典 和 命名 空间 


字典 的 查询 很 快 , 不 过 ,在 不 必要 的 时 候 这 么 做 会 让 你 的 代码 变 慢 ,就 跟 任何 非 必 
要 代码 行 一 样 。 Python 在 命名 空间 的 管理 上 就 浮现 出 这 一 问题 , 它 过 度 使 用 了 字典 
来 进行 查询 。 


每 当 Python 访问 一 个 变量 、 函 数 或 模块 时 ， 都 有 一 个 体系 来 决定 它 去 哪里 查找 这 
些 对 象 。 首 先 ，Python 查找 locals () 数组 ， 其 内 保存 了 所 有 本 地 变量 的 条 目 。 
Python 花 了 很 多 精力 优化 本 地 变量 查询 的 速度 , 而 这 也 是 整 条 链 上 唯一 一 个 不 需 
字典 查询 的 部 分 。 如 果 它 不 在 本 地 变量 里 ， 那 么 会 搜索 globals () 字典。 最 后 ， 
如 果 对 象 也 不 在 那里 , 则 搜索 builtin 对 象 . 要 注意 locals () 和 globals () 
是 显 式 的 字典 而 ”builtin _ 则 是 模块 对 象 ， 在 搜索 ”builtin 中 的 一 个 
盟 性 时 ， 我 们 其 实 是 在 搜索 它 的 locals () 字典 (对 所 有 的 模块 对 象 和 类 对 象 
都 是 如 此 !)。 

为 了 让 事情 更 清楚 ， 让 我 们 看 一 个 简单 的 例子 ， 对 不 同 作用 域内 的 函数 进行 调用 
( 例 4-8)。 我 们 可 以 用 dais 模块 ( 例 4-9) 解析 函数 来 更 好 地 理解 这 些 命 名 空间 查 
询 是 怎么 发 生 的 。 
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例 4 


impo 


-8 命名 空间 查询 
rt _ math 


from math import sin 


def 


def 


def 


例 4 


>>> 
9 


>>> 
15 


test1 (x): 

mr 

>>> 2%timeit testi (123456) 

1000000 loops, best of 3: 381 ns Per loop 


mm 


return math.sin (x) 


test2 (X) : 

Jr Pr 

>>> gtimezt test2(123456) 

1000000 loops, best of 3: 311 ns Per loop 


mm 


return sin (x) 


test3(x, sin=math.sin): 

mr 

>>> 8%timeit test3(123456) 

1000000 loops, best of 3: 306 ns Per JooP 


mm 


return sin (x) 


-9 ”命名 空间 查询 解析 


dis.dis (test1) 
0 LOAD GLOBAL 
竖 LOAD_ ATTR 
6 LOAD FAST 
9 CALL FUNCTION 
12 RETURN VALUE 


(math) 
(sin) 


(x) 


人 


dis.dis (test2) 
0 LOAD _ GLOBAL 0 (sin) 
3 LOAD FAST 0 (x) 
6 CALL FUNCTION 下 
9 RETURN VALUE 


>>> dis.dis (test3) 


21 


0 LOAD FAST 1 (sin) 
3 LOAD FAST 0 (x) 

6 CALL FUNCTION 1 

9 RETURN VALUE 





hy 





# Dictionary lookup 
# Dictionary lookup 
# Local lookup 


# Dictionary lookup 
# Local lookup 


# Local lookup 
# Local lookup 


第 一 个 函数 test1 显示 查询 math 库 来 调用 sin。 生成 的 字 节 码 的 证 据 表 明 : 首 


月 





了 


E 一 个 math 模块 的 引用 必须 被 调 入 ,然后 在 模块 上 进行 属性 查询 ,直到 找到 sin 


函数 。 整 个 步骤 经 过 了 两 次 字典 查询 ， 一 次 查找 math 模块 ， 一 次 在 模块 中 查找 
sin 图 数 。 
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另 一 方面 ，test2 从 math 模块 显 式 导 和 信 了 sin 函数 ， 因 此 该 函数 可 在 全 局 命名 
空间 中 被 直接 访问 。 这 意味 着 我 们 可 以 避免 查询 math 模块 以 及 后 续 的 属性 查询 。 
不 过 ， 我 们 还 是 要 在 全 局 命名 空间 查找 sin 函数 。 这 也 是 另 一 个 我 们 要 从 模块 中 
显 式 导入 函数 的 原因 。 这样 做 不 仅 让 代码 更 可 读 , 因为 读者 可 以 知道 到 底 需 要 外 部 
资源 中 的 什么 函数 ， 而 且 也 加 速 了 代码 ! 


最 后 ，test3 定义 了 sin 函数 为 一 个 参数 关键 字 ， 其 默认 值 是 math 模块 的 sin 
函数 的 引用 。 虽 然 我 们 依然 需要 在 模块 中 查找 这 一 函数 ， 但 仅 在 test3 浮 数 第 一 
次 被 定义 时 查找 。 之 后, 这 一 引用 以 默认 参数 关键 字 的 形式 作为 一 个 本 地 变量 被 保 
存在 函数 的 定义 中 。 之 前 提 到 过 ,本 地 变量 无 须 字 典 查 询 ; 它们 被 保存 在 一 个 十 分 
微小 的 数组 中 ， 具 有 很 快 的 查询 速度 。 因 此 ， 找 到 这 个 函数 非常 快 。 


这 些 效果 只 是 Python 对 命名 空间 管理 方式 的 一 个 有 趣 结果 ，test3 并 不 是 Python 
的 惯用 写法 。 幸 运 的 是 ,这些 额外 的 字典 查询 仅 在 它们 被 大 量 调用 时 才 会 开始 降低 
性 能 〈 比 如 朱 利 亚 集合 例子 中 在 一 个 高 速 循环 的 最 内 部 )。 记 住 这 一 点 ， 一 个 更 可 
读 的 解决 方案 是 在 循环 开始 前 设置 一 个 本 地 变量 保存 一 个 函数 的 全 局 引用 。 在 调用 
函数 时 我 们 依然 会 进行 一 次 全 局 查询 , 但 在 循环 内 对 函数 的 每 次 调用 都 会 变 快 。 考 
虑 到 代码 中 即使 是 十 分 微小 的 减 慢 也 会 被 数 百 万 次 的 运行 所 放大 , 即使 一 次 字典 查 
询 仅 需 花 费 几 百 纳 秒 , 如 果 我 们 循环 几 百 万 次 这 样 的 查询 , 那 总 耗 时 就 会 迅速 累加 。 
事实 上 ， 例 4-10 的 查询 中 ， 我 们 可 以 看 到 只 需 在 循环 前 将 sin 函数 本 地 化 就 能 获 
得 9.4% 的 速度 提升 。 


例 4-10 循环 内 的 命名 空间 查询 的 降 速 效果 


from math import sin 


























































































































def tight loop slow(iterations): 
rrr 


>>> 38timeit tight loop slow(10000000) 
1 loops, best of 3: 2.21 s per loop 
rr 


result = 0 

for i in xrange (iterations): 
# this call to sin requires a global lookup 
result += sin (i) 


def tight loop fast(iterations) : 
rrr 


>>> 23timeit tight loop fast(10000000) 
1 loops, best of 3: 2.02 s per loop 
rr 


result = 0 
local sin = sin 
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for i in xrange (iterations): 
# this call to local sin requires a local lookup 
result.+=- TOCal :sin:(1,) 


4.3 小结 


字典 和 集合 适用 于 存储 能 够 被 键 索引 的 数据 。 散 列 函数 对 键 的 使 用 方式 极 大 地 影响 
数据 结构 的 最 终 性 能 。 另 外 , 理解 字典 如 何 工作 不 仅 可 以 让 你 更 好 地 组 织 你 的 数据 ， 
同时 也 能 让 你 更 好 地 组 织 你 的 代码 ， 因 为 字典 是 Python 的 内 部 功能 之 一 。 

我 们 将 在 下 一 章 探索 生成 器 , 它 令 我 们 能 够 对 数据 进行 更 强 的 控制 , 而 且 不 需要 预 
先 在 内 存 中 保存 完整 的 数据 集 。 这 让 我 们 得 以 绕 过 很 多 使 用 Python 内 部 数据 结构 
时 可 能 遇 到 的 障碍 。 
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第 5 章 


迭代 器 和 生成 器 





读 完 本 章 之 后 你 将 能 够 回答 下 列 问题 

。 ”生成 器 是 怎样 节约 内 存 的 ? 

。 使 用 生成 器 的 最 佳 时 机 是 什么 ? 

。 ”我 如 何 使 用 itertools 来 创建 复杂 的 生成 器 工作 流 ? 
。 ”延迟 估 值 何 时 有 益 ， 何 时 无 益 ? 


当 许多 其 他 语言 的 使 用 者 开始 学 习 Python 时 ， 他 们 在 for 循环 的 记 法 差异 上 吓 了 
一 跳 。 这 是 因为 ， 在 其 他 语言 中 的 写法 可 能 是 这 样 : 


# 妖 俯 语言 
for (i=0; i<N; i++) { 
do work (i); 


} 
而 在 Python 中 他 们 遇 到 了 一 个 叫 range 或 xrange 的 新 函数 : 


# Python 
for i in range(N) : 
do_ work (i) 


这 两 个 函数 让 我 们 见识 到 了 使 用 生成 器 编程 的 范例 。 为 了 彻底 理解 生成 器 , 让 我 们 
首先 试 着 简单 实现 range 和 xrange 函数 : 


def range (start, stop, step=1): 
numbers = [] 
while start < stop: 
numbers.append (start) 
start += step 
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return numbers 


def xrange (start, stop, step=1): 
while start < stop: 
yield start #@ 
start += step 


for i in range(1,10000): 
pass 


for i in xrange(1,10000): 
pass 


@ 这 个 函数 会 Yield 很 多 值 而 不 是 只 返回 一 个 。 这 就 让 一 个 看 上 去 很 普通 的 函数 
转变 成 一 个 生成 器 ， 一 种 可 以 被 重复 轮 询 下 一 个 可 用 值 的 函数 。 


首先 要 注意 的 是 range 的 实现 必须 预先 创建 一 个 列表 保存 范围 内 的 所 有 数字 。 所 
以 ， 如 果 范 围 从 1 到 10000， 这 个 函数 会 对 numbers 列表 进行 10000 次 append 
在 第 3 章 我 们 已 经 讨论 过 这 部 分 开销 ), 然后 返回 整个 列表 。 而 男 一 方面 ， 生 成 器 
则 能 够 “返回 ”很 多 值 。 每 次 代码 运行 到 yield， 该 函数 都 会 发 射出 一 个 值 ， 然 
后 当 外 部 代码 需求 另 一 个 值 时 ， 该 函数 才 会 继续 运行 (之 前 的 状态 保持 不 变 ) 并 发 
射 新 的 值 。 当 该 函数 运行 结束 时 ， 一 个 StopIteration 异常 会 被 抛 出 表明 该 生 
成 器 已 经 没有 更 多 的 值 了 。 结 果 就 是 ， 虽 然 两 个 函数 最 终 运 行 了 同样 的 计算 次 数 ， 
使 用 range 版 本 的 循环 多 消耗 了 10000 倍 的 内 存 (如果 范围 从 1 到 玉 则 是 人 倍 )。 


牢记 这 段 代 码 ， 我 们 就 能 在 for 循环 中 使 用 自己 实现 的 range 和 xrange。 在 
Python 语言 中 , for 循环 要 求 被 循环 的 对 象 支持 迭代 。 这 意味 着 我 们 必须 能 够 在 循 
环 对 象 上 创建 一 个 迭代 器 。 而 在 任何 对 象 上 创建 迭代 器 , 我 们 都 只 需要 使 用 Python 
内 建 的 iter 函数 。 这 个 函数 ， 对 于 列表 、 元 组 、 字 典 和 集合 都 返回 一 个 对 象 内 部 
元 素 或 键 的 迭代 器 。 对 于 更 复杂 的 对 象 ，iter 函数 会 返回 对 象 的 ”iter 属性 。 
由 于 xrange 已 经 返回 了 一 个 迭代 器 ,对 其 调用 iter 就 不 会 做 任何 事 , 只 是 简单 
返回 原始 的 对 象 (因此 type (xrange (1，10)) == type (iter(xrange (1， 
10) ) ) ) 。 不 过 , 由 于 range 返回 的 是 一 个 列表 , 我 们 就 不 得 不 创建 一 个 新 的 对 象 ， 
一 个 列表 的 迭代 器 ,来 近代 列表 中 的 所 有 值 。 一 旦 一 个 迭代 器 被 创建 ,我 们 只 需要 
对 其 调用 next () 函数 ， 来 获得 新 值 ， 直 到 StopIteration 异常 被 抛 出 。 这 给 
我 们 提供 了 一 个 能 够 很 好 解析 for 循环 的 视图 ， 如 例 5-1 所 示 。 

例 5-1 Python 的 for 循环 解析 


# python 循环 
for i in object: 
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do_ work (i) 


# 各 局 于 
object iterator = iter(object,) 
while True: 
EY 
i = Object. iterator.next() 
do_work (i) 
except Stoplteration: 
break 





fo 循环 的 代码 显示 了 我 们 在 使 用 range 而 不 是 xrange 时 需要 额外 调用 iter。 
在 使 用 xrange 时 ， 我 们 不 需要 做 任何 事情 《因为 它 已 经 是 一 个 迭代 器 了 1);， 然而 
在 使 用 range 时 ， 我 们 需要 分 配 一 个 新 的 列表 并 预先 计算 其 内 的 值 ， 然 后 我 们 还 

要 创建 一 个 欠 代 器 ! 


更 重要 的 是 ， 预 先 计算 range 列表 需要 为 整个 数据 集 分 配 足 够 的 空间 并 为 每 一 个 
元 素 赋 正确 的 值 ， 即 使 我 们 每 次 仪 需要 一 个 值 。 为 列表 分 配 的 空间 其 实 并 没有 什么 
意义 。 实 际 上 ， 循 环 甚至 根本 无 法 运行 ， 因 为 range 尝试 去 分 配 的 内 存 可 能 根本 
无 法 被 满足 (range (100, 000,000) 会 创建 一 个 3.1GB 大 小 的 列表 !)。 通 过 对 结 
果 计 时 ， 我 们 可 以 很 明显 地 看 到 这 一 点 : 


def test range () : 


PP 


































































































>>> 23timeit test range () 
了 loops, best of 3: 446 ms Per loop 


mm 


for i in range(1l, 10000000): 
pass 


def test xrange(): 
rrr 


>>> 3timeit test xrange() 
1 loops, best of 3: 276 ms Per loop 


mm 


for i in xrange(1, 10000000): 
pass 


这 个 问题 现在 看 上 去 可 能 并 不 算 什么 一 一 我 们 只 需要 将 所 有 的 range 调用 替换 成 
xrange 一 一 但 是 实际 的 问题 可 能 隐藏 在 非常 深 的 角落 。 比 如 假设 我 们 有 一 个 数字 
的 长 列表 ,我们 想 要 知道 其 中 有 多 少 个 数字 可 以 被 3 整除 。 你 可 能 会 这 样 写 : 


divisible by three = len([n for n in list of numbers if n % 3 == 0]) 


然而 ， 这 种 写法 的 问题 跟 range 一 样 。 因 为 我 们 使 用 了 列表 表达 式 ， 我 们 预先 生 
成 了 一 个 能 被 3 整除 的 数字 的 列表 , 仅仅 只 是 为 了 对 其 进行 计算 并 丢弃 。 如果 这 个 
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列表 很 长 ， 这 可 能 会 导致 无 意义 地 分 配 大 量 内 存 一 一 大 到 根本 无 法 被 满足 。 


我 们 的 列表 表达 式 使 用 了 如 下 公式 [<value> for <item> in <sequence> if 
<condition>] 。 这 会 创建 一 个 列表 ， 内 含 所 有 满足 条 件 的 值 。 相 对 的 ， 我 们 也 可 以 
使 用 一 个 类 似 的 语法 (<value> for <item> in <sequence> if <condition>) 
来 创建 一 个 满足 条 件 的 值 的 生成 器 而 不 是 一 个 列表 。 

利用 列表 表达 式 和 生成 器 表达 式 之 间 的 这 种 细微 的 差别 ,我 们 就 能 对 divisible_ 
by_three 的 代码 进行 优化 。 然 而 ， 生 成 器 并 没有 一 个 length 属性 ， 所 以 我 们 
必须 要 干 的 聪明 点 : 



































divisible by three = sum((l1 for n in list of numbers if n % 3 == 0)) 
这 里 ， 我 们 的 生成 器 在 每 当 遇 到 一 个 能 被 3 整除 的 数字 时 就 会 发 射 一 个 1， 而 不 是 
别 的 数字 。 对 该 生成 器 发 射 的 所 有 值 求 和 , 我们 就 能 得 到 跟 列 表 表达 式 一 样 的 结果 。 
这 两 个 版 本 的 代码 性 能 几乎 一 样 ， 但 是 生成 器 表达 式 需 要 的 内 存 远 小 于 列表 表达 
式 。 男 外 , 我 们 可 以 将 列表 版 本 轻易 转化 成 生成 器 版 本 的 原因 是 我 们 只 关心 列表 中 
每 个 元 素 的 当前 值 一 一 该 值 要 么 可 以 被 3 整除 要 么 不 可 以 , 而 跟 它 在 列表 中 的 位 置 
无 关 ， 跟 其 前 后 的 数字 也 无 关 。 更 复杂 的 函数 也 可 以 被 转 成 生成 器 , 但 是 根据 它们 
的 复杂 度 ， 这 种 转换 有 可 能 会 比较 困难 。 


5.1 无 穷 数 列 的 迭代 器 
如 果 我 们 只 需要 保存 有 限 个 状态 并 只 发 射 当前 值 ， 生 成 器 可 以 被 用 来 产生 无 穷 数 


列 。 斐 波 那 契 数列 就 是 一 个 很 好 的 例子 一 一 它 是 一 个 具有 两 个 状态 变量 〈 最 后 两 个 
斐 波 那 契 数 ) 的 无 穷 数列 : 

































































def fiponacci() : 
0 
while True: 
yield J 
i 
这 里 可 以 看 到 ， 虽 然 j 是 那个 被 发 射 的 值 ， 我 们 依然 需要 保留 i 的 记录 ， 因 为 它 
保存 了 斐 波 那 契 数列 的 状态 。 生 成 器 计算 所 需要 的 状态 的 数量 非常 关键 ， 因 为 它 最 
终 会 被 转化 成 对 象 的 内 存 足 迹 。 如 果 我 们 有 一 个 函数 需要 使 用 很 多 的 状态 , 却 输出 
很 少 的 数据 ， 那 么 使 用 预先 计算 的 列表 可 能 比 生成 器 更 合适 。 


生成 器 并 没有 想象 中 使 用 的 那么 广泛 的 一 个 原因 是 它们 的 逻辑 可 以 被 包含 在 你 的 
代码 中 。 这 意味 着 生成 器 其 实 是 用 更 聪明 的 循环 组 织 你 代码 的 一 种 方式 。 比 如 , 我 
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们 可 以 有 多 种 方式 回答 问题 “5000 以 内 的 斐 波 那 契 数 中 有 几 个 奇数 ?“: 


def 





fibonacci naive(): 
i, j= 0,1 
count = 0 
while j <= 5000: 

站 本 和 关 2 

count += 1 

i a 

Feturn. GOunt 


fibonacci transform() : 
count = 0 
for fin. fibonaccri (): 
if f > 5000: 
break 
二 在 FS 2 
count += 1 


return count 


from itertools import islice 


def 


所 有 这 些 方法 都 有 近似 的 运行 时 属性 (也 就 是 认 
性 能 ) ， 但 fibonacci transform 函数 具有 多 个 优势 。 首 4 





fibonacci succinct () : 


is odd = lambda x : x $2 
first 5000 = 证 slice(fibonaceti()', 





0, 5000) 


return Sum(1 for x in first 5000 if is odd(x)) 

















它们 都 有 相同 的 内 存 足 迹 和 同样 的 
E， 它 看 上 去 比 


fibonacci_succinct 直观 很 多 , 可 以 轻易 被 另 一 个 开发 者 调试 和 理解 。 关 于 后 


者 的 警告 见 下 一 节 , 我 们 会 讨论 一 些 itertools 的 常见 用 法 














该 模块 在 大 大 简 


化 了 很 多 和 欠 代 器 的 简单 操作 的 同时 也 会 迅速 让 Python 代码 变 得 不 那么 像 Python。 
另 一 方面 ，fibonacci_naive 一 次 做 了 多 件 事 情 ， 隐 藏 了 它 实 际 的 计算 逻辑 ! 
而 使 用 斐 波 那 契 数列 的 生成 器 函数 则 不 会 阻碍 我 们 理解 实际 的 计算 逻辑 。 最 后 ， 


fibonacci_ transform 可 以 变 得 更 加 通用 。 这 个 函数 可 以 被 重 命名 为 n 


odqq_ unqer_ 5000 并 接受 一 个 生成 器 参数 ， 这 样 它 就 可 以 工作 在 任意 数列 上 。 











um 


Fibonacci transform 函数 的 最 后 一 个 好 处 是 它 标 注 了 计算 的 两 个 阶段 : 数据 
的 生成 和 数据 的 转化 。 该 函数 很 明显 是 在 进行 数据 的 转化 , 而 fibonacci 函数 则 


是 生成 数据 。 这 一 界限 的 划分 增加 了 额外 的 清晰 度 和 功能 : 我 们 可 以 让 一 个 转化 
数 工作 在 一 组 新 的 数据 上 , 或 在 一 组 数据 上 进行 多 个 转化 。 这 一 规范 在 创建 复杂 程 














序 时 十 分 重要 ， 而 使 用 生成 器 则 可 以 明确 地 表示 : 生成 器 用 于 创建 数据 ， 而 普通 
数 则 操作 生成 的 数据 。 








到 





到 
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5.2 ”生成 器 的 延迟 估 值 

之 前 提 到 , 生成 器 之 所 以 能 够 节约 我 们 的 内 存 是 因为 它 只 处 理 当 前 感 兴 趣 的 值 。 在 
我 们 计算 的 任意 点 , 我 们 都 只 能 访问 当前 的 值 ， 而 无 法 访问 数列 中 的 其 他 元 素 (这 
种 算法 我 们 通常 称 为 “ 单 通 ”或 “在 线 ") 。 有 时 候 这 会 令 生 成 器 难以 被 使 用 ， 不 过 
有 很 多 模块 和 函数 可 以 帮助 解决 这 一 问题 。 

我 们 主要 关注 标准 库 中 的 itertools 库 。 它 提供 了 Python 内 建 函 数 map、reduce、 
filter 和 zip 的 生成 器 版 本 (在 itertools 中 分 别 是 imap iireduce ifilLter 
和 izip)， 以 及 其 他 很 多 有 用 的 函数 。 特 别 值得 注意 的 有 : 


islice 


允许 对 一 个 无 穷 生成 器 进行 切片 。 



































chain 
将 多 个 生成 器 链接 到 一 起 。 

takewhile 
给 生成 器 添加 一 个 终止 条 件 。 

cycle 
通过 不 断 重 复 将 一 个 有 穷 生 成 器 变 成 无 穷 。 


让 我 们 创建 一 个 使 用 生成 器 来 分 析 大 数据 集 的 例子 。 假 设 我 们 现在 有 一 个 分 析 函 数 
用 于 处 理 时 间 点 数据 ， 数 据 每 秒 会 产生 一 个 ， 对 于 过 去 的 20 年 一 一 我 们 有 
631 152 000 个 数据 点 ! 该 数据 被 保存 在 一 个 文件 中 ， 每 秒 生成 一 行 ， 我 们 无 法 将 
整个 数据 集 读 入 内 存 。 如 果 我 们 想 要 进行 一 些 简 单 的 异常 检测 , 我 们 可 以 使 用 生成 
器 而 无 须 分 配 任何 列表 ! 


我 们 需要 解决 的 问题 是 : 对 于 一 个 格式 为 “timestamp, value” 的 数据 文件 ， 需 要 找 
到 所 有 含有 异常 值 的 日 期 ， 比 该 日 均值 超出 3 倍 标准 差 之 外 的 数字 被 视 为 异常 值 。 
我 们 首先 写 读 取 文件 的 代码 , 文件 以 一 行 接着 一 行 的 方式 读 取 , 然后 将 每 一 行 的 值 
输出 为 一 个 Python 对 象 。 我 们 还 会 创建 一 个 read_fake qdata 生成 器 用 于 生成 
伪造 数据 来 测试 我 们 的 算法 。 对 于 这 个 函数 ， 我 们 依然 会 提供 一 个 filename 参 
数 , 来 让 它 具 有 和 reaq _dqata 相同 的 函数 签名 ， 不 过 该 参数 会 被 丢弃 。 这 两 个 函 
数 ， 如 例 5-2 所 示 ， 使 用 了 延迟 佑 值 一 一 我 们 仅 当 生成 器 的 next () 属性 被 调用 时 
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才 会 去 读 取 文 件 的 下 一 行 ， 或 生成 新 的 伪造 数据 。 
例 5-2 ”延迟 读 取 数 据 


from random import normalvariate, rand 





from itertools import count 


def read data (filename): 
with open (filename) as fd: 
for line in fd: 
data = line.strip().split(',') 
yield map (int, data) 


def read fake data (filename): 
for i in count(): 

sigma = rand() * 10 

yield (i, normalvariate(0, sigma)) 
现在 ,我 们 可 以 使 用 itertools 提供 的 groupby 函数 将 同一 天 的 timestamp 
分 在 一 组 ( 例 5-3)。 这 个 函数 的 输入 参数 是 一 组 数据 和 一 个 用 于 分 组 的 关键 字 函 数 。 
返回 的 则 是 一 个 生成 器 , 生成 的 每 一 个 值 都 是 一 个 元 组 , 元 组 内 包含 该 组 的 关键 字 
和 该 组 所 有 元 素 的 生成 器 。 对 于 关键 字 函 数 , 我 们 会 创建 一 个 lambda 函数 返回 一 
个 date 对 象 。 对 于 同一 天 的 数据 会 产生 相同 的 date 对 象 , 这 样 就 能 以 天 来 分 组 。 
这 个 关键 字 函 数 可 以 是 任何 东西 一 一 我 们 可 以 以 小 时 、 年 或 数据 值 的 某 个 属性 来 分 
组 。 唯 一 的 限制 是 数据 必须 是 连续 的 。 也 就 是 说 ， 如 果 我 们 有 一 个 输入 是 AAAA 
B B A A 并 以 字母 分 组 ， 我 们 就 会 得 到 3 个 组 ,分 别 是 (A，[A, A, A, A])、 
(B，[B，B]) 以 及 (A， [A, Al)。 


例 5-3 对 我 们 的 数据 分 组 


from datetime import date 
















































































from itertools import groupby 


def day grouper (iterable): 
key = lambda (timestamp, value) : date.fromtimestamp (timestamp) 
return groupby (iterable, key) 


现在 来 进行 实际 的 异常 检测 。 我 们 会 遍历 一 天 内 的 值 并 记录 平均 值 和 最 大 值 。 平均 
值 的 计算 会 使 用 一 个 在 线 的 平均 值 和 标准 差 算 法 。 保留 最 大 值 是 因为 它 将 是 我 们 
异常 数据 的 最 佳 代 表 一 一 如 果 最 大 值 比 平均 值 的 3sigma 大 ， 那 么 我 们 就 返回 代表 
这 一 天 的 date 对 象 。 否 则 ， 我 们 返回 False。 不 过 ， 我 们 也 可 以 直接 终止 函数 












































Q@ 我 们 使 用 Knuth 的 在 线 平 均 数 算法 。 这 让 我 们 能 够 使 用 一 个 临时 变量 同时 计算 出 平均 数 和 一 阶 矩 〈 也 就 
是 标准 差 )。 我 们 还 可 以 稍稍 修改 公式 并 添加 更 多 的 状态 变量 来 计算 高 阶 矩 的 值 (每 个 阶 一 个 变量 )。 
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(并 返回 None ) 。 我们 输出 这 些 值 是 因为 这 个 check_anomaly 函数 被 定义 为 一 个 


数据 过 滤器 一 一 一 种 对 需要 保留 的 数据 返回 True 而 对 需要 丢弃 的 数据 返回 False 
的 函数 。 这 让 我 们 可 以 过 滤 原 始 的 数据 集 并 只 保留 符合 我 们 条 件 的 日 子 。 


check anomaly 限 数 如 例 5-4 所 示 。 


例 5-4 基于 生成 器 的 异常 检测 


import math 


def check anomaly((day, day_ data)): 


# We find the mean, standard deviation, and maximum values for the aay. 
# Using a single-pass mean/standard deviation algorithm allows us to only 


# read through the day's data once. 


n= 0 
mean = 0 
M2 = 0 
max_value = None 
for timestamp, value in day data: 
n += 1 
delta = value - mean 
mean = mean + delta/n 
M2 += delta* (value - mean) 








max value = max(max value, value) 


variance = M2/(n - 1) 


standard deviation = math.sqrt (variance) 


# Here is the actual check of whether that day's aata is anomalous. If it 
# Is we return the value of the day; otherwise, we return false. 
if max value > mean + 3 * standard deviation: 


return day 
return False 


这 个 函数 一 个 看 上 去 可 能 有 点 奇怪 的 地 方 是 参数 定义 中 额外 的 一 组 小 括号 。 这 不 是 
打字 错误 ， 而 是 因为 该 函数 的 输入 来 自 grouppby 生成 器 。 记 住 groupby 返回 的 


元 组 会 成 为 这 个 check_anomaly 函数 的 参数 。 
正确 获取 组 的 关键 字 和 组 的 数据 。 由 于 我 们 使 用 了 ifi1lter， 另 一 种 不 需要 在 函数 











因此 ， 我 们 必须 进行 元 组 展开 来 











定义 中 进行 元 组 展开 的 处 理 方式 是 定义 istarfilter, 类 似 于 istarmap 对 imap 


做 的 处 理 那 样 (更 多 信息 参见 itertools 文档 )。 








最 后 ， 我 们 可 以 将 生成 器 链接 来 获得 所 有 具有 有 蜡 常 数据 的 日 子 〈 例 5-5)。 


例 5-5 将 我 们 的 生成 器 链接 起 来 


from itertools import ifilter, imap 
data = read data (data filename) 


data day = day_ grouper (data) 
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anomalous dates = ifilter (None, imap (check anomaly, data day)) #@D 


first anomalous date, first anomalous data = anomalous dates.next() 
print "The first anomalous date is: ", first anomalous date 


@ ifilter 会 移 除 所 有 不 满足 给 定 过 滤器 的 元 素 。 默认 情况 (第 一 个 参数 为 None ) 
下 ，ifilter 会 过 滤 掉 所 有 被 估 值 为 False 的 元 素 。 这 样 我 们 就 不 会 包含 那些 
check_anomaly 认为 不 存在 异常 的 日 子 。 


这 个 方法 非常 简单 地 允许 我 们 获得 异常 日 子 的 列表 而 不 需要 读 取 整个 数据 集 。 
需要 注意 的 一 件 事 是 这 段 代 码 并 没有 真正 进行 任何 计算 ， 它 只 是 为 计算 逻辑 设 
置 了 一 条 流水 线 。 在 我 们 执行 anomalous_qates.next() 或 以 某 种 方式 对 
anomalous_dates 进行 遍历 之 前 ， 文 件 永远 不 会 被 读 取 。 事 实 上 ， 如 果 我 们 
的 整个 数据 集中 有 5 个 异常 日 子 ， 而 我 们 的 代码 在 读 取 了 第 一 个 之 后 就 停止 ， 
那么 文件 就 只 会 被 读 到 第 一 个 日 子 的 数据 出 现 为 止 。 这 就 叫 延 迟 估 值 一 一 只 有 
被 明确 要 求 的 计算 才 会 被 执行 ， 如 果 出 现 了 一 个 提前 终止 的 条 件 ， 那 么 就 可 以 
大 幅 降 低 整 体 的 运行 时 间 。 

用 这 种 方式 组 织 代码 的 男 一 个 好 处 是 它 允 许 我 们 在 不 需要 重 写 大 部 分 代码 的 情况 
下 轻松 改换 更 复杂 的 计算 逻辑 。 比 如 ， 如果 我 们 想 要 一 个 日 内 移动 窗口 的 分 组 而 不 
是 按 日 分 组 ,我们 可 以 简单 写 一 个 新 的 day_grouper 来 蔡 换 ， 





















































from datetime import datetime 


def rolling window grouper (data, window size=3600): 
window = tuple(islice(data, 0, window size)) 
while True: 
current datetime = datetime.fromtimestamp (window[0][0]) 








yield (current datetime, window) 
window = window[l1:] + (data.next(),) 


现在 ， 我 们 只 需 用 这 个 rolling_window_grouper 简单 蔡 换 例 5-5 中 的 
day_9grouper 就 能 获得 我 们 想 要 的 结果 。 使 用 这 种 模式 ， 我 们 还 能 看 到 这 两 个 方 
法 都 具有 十 分 清晰 的 内 存 保证 一 一 它 将 仪 保存 窗口 内 的 数据 作为 其 状态 (两 个 方法 
分 别 需要 保存 一 整 日 的 数据 或 3600 个 数据 点 )。 如 果 就 连 数据 集 的 这 部 分 采样 都 依 
然 无 法 全 部 放 入 内 存 , 那么 我 们 还 可 以 通过 多 次 打开 文件 并 使 用 不 同 的 文件 描述 符 
来 指向 我 们 实际 需要 的 数据 (或 使 用 Linecache 模块 ) 来 解决 这 个 问题 。 

最 后 一 点 : 在 rolling window groupez 函数 中 , 我们 对 winaqov 列表 进行 了 


很 多 pop 和 append 操作 。 我 们 可 以 使 用 collections 模块 的 seque 对 象 来 大 
大 优化 这 部 分 代码 。 这 个 对 象 可 以 在 列表 的 头 部 和 尾部 均 提 供 o (1) 的 添加 和 删除 
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操作 (传统 的 列表 只 能 对 列表 尾部 提供 0(1) 的 添加 删除 操作 ， 而 对 列表 的 关 部 进 
行 同 样 的 操作 则 是 0(n) )。 使 用 deque 对 象 ， 我们 可 以 使 用 append 将 新 数据 添 
加 到 列表 的 右 侧 (或 者 说 尾部 )， 并 使 用 deque .popleft () 来 删除 列表 左 侧 (或 
者 说 头 部 ) 的 数据 而 无 须 分 配 更 多 空间 或 进行 耗 时 的 0 (n) 操作 。 



































5.3 ”小结 


通过 使 用 迭代 器 组 织 我 们 的 异常 检测 算法 , 我 们 能 处 理 的 数据 就 远 远 超 过 了 内 存 的 
限制 。 另 外 ， 使 用 类 代 器 的 性 能 也 好 于 使 用 列表 ， 因 为 我 们 避免 了 昂贵 的 apPenad 
操作 。 


因为 迭代 器 是 Python 的 原始 类 型 ， 我 们 应 该 始终 使 用 这 个 方法 来 减少 应 用 程序 的 
内 存 足迹 。 这 么 做 带 来 的 好 处 是 结果 可 以 被 延迟 佑 值 ， 你 只 需要 处 理 必 需 的 数据 ， 
而 内 存 就 会 被 节省 下 来 , 因为 我 们 不 需要 保存 之 前 的 结果 ,除非 我 们 明确 知道 需要 
它们 。 在 第 11 章 ， 我 们 会 讨论 其 他 一 些 适用 于 更 独特 的 问题 的 方法 并 介绍 一 些 新 
的 思路 来 解决 内 存 问 题 。 


我 们 将 在 第 9 章 和 第 10 章 看 到 , 使 用 迭代 器 来 解决 问题 的 另 一 个 好 处 是 它 让 你 的 代 
码 能 够 适用 于 多 CPU 或 多 计算 机 的 场合 。 我 们 在 5.1 节 中 讨论 过 ， 使 用 迭代 器 必须 
预先 考虑 算法 所 需 的 各 种 状态 变量 。 只 要 你 封装 好 了 这 些 算 法 运行 时 必需 的 状态 变 
量 ， 算 法 跑 在 什么 数据 上 就 变 得 无 关 紧 要 了 。 比 如 我 们 在 使 用 multiprocessing 
和 ipython 模块 时 就 可 以 看 到 这 种 示范 ， 它 们 都 使 用 了 一 个 类 似 于 map 的 函数 来 
启动 并 发 任务 。 
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第 6 章 


炬 阵 和 天 量 计算 





读 完 本 章 之 后 你 将 能 够 回答 下 列 问题 

。 ”矢量 计算 的 瓶颈 在 哪里 ? 

。 我 可 以 用 什么 工具 查看 CPU 进行 计算 时 的 效率 ? 
。 numpy 为 什么 比 纯 Python 更 适合 数值 计算 ? 





e。 cache-miss 和 page-faults 是 什么 ? 
。 ”我 如 何 追 踪 代 码 中 的 内 存 分 配 ? 


无 论 你 尝试 在 计算 机 上 解决 什么 问题 ， 你 都 会 在 某 个 时 候 遇 到 矢量 计算 。 矢 量 计算 
是 计算 机 工作 原理 不 可 或 缺 的 部 分 , 也 是 在 芯片 层次 上 对 程序 运行 时 间 进 行 加 速 所 
必须 了 解 的 部 分 一 一 计算 机 只 知道 如 何 对 数字 进行 操作 , 而 了 解 如 何 同时 进行 多 个 
这 样 的 计算 能 够 加 速 你 的 程序 运行 。 


在 本 章 ， 我 们 通过 解决 一 个 相对 简单 的 数学 问题 ， 扩 散 等 式 求解 ， 来 揭示 这 个 
问题 的 复杂 度 并 理解 CPU 层面 上 发 生 了 什么 。 通 过 理解 Python 代码 如 何 影响 
CPU 以 及 如 何 有 效 探 测 这 些 影响 ， 我 们 就 可 以 举一反三 地 学 习 如 何 理解 其 他 


问题 。 


我 们 将 首先 介绍 扩散 等 式 问题 并 提供 一 个 纯 Python 的 快速 解决 方案 。 我 们 随后 会 
指出 该 方案 中 的 一 些 内 存 问题 并 试图 用 纯 Python 解决 它们 , 我 们 会 介绍 numpy 
验证 它 是 如 何以 及 为 什么 能 够 加 速 我 们 的 代码 的 。 然 后 我 们 会 开始 进行 一 些 算法 的 
改变 并 特 化 我 们 的 代码 来 解决 手 上 的 问题 。 通 过 移 除 我 们 所 使 用 的 库 中 的 一 些 通用 
性 函数 ， 我 们 就 能 够 再 一 次 提升 速度 。 最 后 我 们 会 介绍 一 些 额外 的 模块 ， 它 们 将 帮 
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助 我 们 在 实际 工作 中 简化 这 种 流程 ,然后 浏览 一 个 小 故事 , 告 诚 我 们 不 要 急于 在 性 
能 分 析 之 前 进行 优化 。 


6.1 问题 介绍 


备 忘 

本 节 要 对 我 们 将 在 本 章 解 决 的 等 式 问 题 给 予 一 个 深刻 的 理解 。 本 节 的 
理解 对 于 本 章 剩 余部 分 的 阅读 并 不 是 严格 必须 的 。 如 果 你 想 要 跳 过 本 
节 ， 那 么 请 一 定 要 看 一 下 例 6-1 和 例 6-2 中 的 算法 逻辑 ， 理 解 我 们 需 
要 优化 的 代码 。 

另外 ， 如 果 你 阅读 了 本 节 之 后 还 需要 更 多 的 解释 ， 请 阅读 剑桥 大 学 
出 版 社 出 版 的 William Press 等 人 的 著作 《数值 分 析 方 法 库 》 第 三 版 
第 17 章 。 

为 了 在 本 章 探索 矩阵 和 矢量 计算 , 我 们 将 重复 使 用 流体 扩散 的 例子 。 扩 散 是 流体 移 
动 并 试图 均匀 混合 的 一 种 方式 。 


本 节 我 们 将 探索 扩散 等 式 背 后 的 数学 问题 。 它 看 上 去 可 能 很 复杂 , 但 不 要 担心 ! 我 
们 会 快速 简化 并 让 它 更 容易 理解 。 另 外 ,重要 的 是 要 记 住 , 虽然 对 于 我 们 所 需要 解 
决 的 最 终 等 式 的 基本 理解 有 助 于 本 章 的 阅读 , 但 这 并 不 是 完全 必须 的 。 后续 的 章节 
会 主要 集中 于 代码 中 的 各 种 方程 式 ， 而 不 是 扩散 等 式 本 身 。 不 过 ， 对 等 式 的 理解 会 
有 助 于 你 的 直觉 来 对 代码 进行 优化 。 总 而 言 之 一 一 理解 你 代码 背后 的 动机 以 及 算法 
的 难点 会 让 你 对 可 能 的 优化 方案 有 一 个 更 深刻 的 理解 。 


扩散 的 一 个 简单 例子 是 水 中 的 染料 : 如 果 你 在 室温 的 水 里 滴 入 几 滴 染料 , 它 会 慢 慢 
扩散 直到 完全 跟 水 混在 一 起 。 由 于 我 们 并 不 搅拌 水 , 水 也 没有 热 到 出 现 热 对 流 的 程 
度 , 扩散 将 是 两 种 液体 混合 的 主要 过 程 。 为 了 在 数学 上 解决 这 些 等 式 , 我 们 会 特地 
选取 我 们 所 需要 的 初始 条 件 , 之 后 我 们 会 看 看 对 初始 条 件 的 改变 会 对 计算 发 生 怎样 
的 影响 (图 6-2) 。 


说 了 这 么 多 , 对 于 我 们 的 目标 来 说 其 实 最 主要 的 还 是 扩散 方程 式 本 身 。 扩 散 等 式 可 
以 被 写成 一 个 1 阶 偏 微分 方程 : 










































































0 8- 
u(x,t)= D— u(x,t 
0 ) Br od) 


这 个 方程 中 , u 是 表示 扩散 质量 的 矢量 。 比 如 ， 我 们 会 有 一 个 矢量 ， 里 面 的 值 0 表 
示 纯 水 ，1 表示 纯 染 料 (0 和 1 之 间 的 值 表示 混合 液体 )。 一 般 来 说 ， 这 个 矢量 应 
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该 是 一 个 2 阶 或 3 阶 的 矩阵 表示 液体 的 实际 区 域 或 体积 。 这 样 , 为 了 表示 一 个 玻璃 

杯 中 的 液体 ， 我 们 就 可 以 设 u 为 一 个 3 阶 矩 阵 ， 计 算 所 有 的 轴 ， 而 不 只 是 在 x 方 

向 求 导 。 除 此 以 外 ，D 是 一 个 物理 值 表示 模拟 实验 中 的 液体 的 属性 。D 越 大 则 表明 

液体 越 容 易 扩 散 。 为 了 简化 ， 我 们 在 代码 中 设 D = 1， 但 依然 将 它 包 含 在 计算 中 。 
扩散 方程 也 被 称 为 热 方程 。 此 时 ，u 表示 一 个 区 域 的 温度 而 D 描述 了 
材料 的 热传导 能 力 。 解 开 方 程 可 以 告诉 我 们 热 如 何 传导 。 这 样 ， 我 们 
就 能 够 了 解 CPU 产生 的 热量 如 何 扩散 到 散热 片上 而 不 是 水 中 染料 的 
扩散 。 














我 们 会 将 时 空 上 连续 的 扩散 微分 方程 改 成 小 块 的 离散 时 空 。 我 们 用 欧 拉 法 来 做 到 这 
一 点 。 欧 拉 法 将 微分 方程 写成 差分 形式 ， 如 下 : 


u(x,t + dt)+u(x,?t) 


8 
—u(x,t) = 
ye dt 


此 时 dt 是 一 个 固定 的 值 ， 表 示 一 个 时 间 的 步 长 ， 或 者 说 我 们 为 了 解决 方程 而 定 的 
时 间 的 精确 度 。 它 可 以 被 想象 成 我 们 正在 制作 的 电影 的 帧 率 。 当 帧 率 提高 (或 者 说 
dt 变 小 ) 时 ， 我 们 就 能 够 得 到 一 个 更 清晰 的 图 像 。 实 际 上 ，qt 越 接 近 0， 欧 拉 近 
似 就 越 精确 (但 是 注意 , 这 个 精确 只 能 在 理论 上 达到 ， 因 为 计算 机 只 拥有 有 限 的 精 
确 度 ， 而 精度 误差 会 迅速 传播 到 所 有 的 计算 结果 )。 这 样 我 们 就 能 将 方程 改写 成 根 
据 u(x,，t) 求 u(x，t+qt)。 这 意味 着 我 们 可 以 以 某 个 初始 状态 u(x，0) 为 起 
点 ， 表 示 一 杯 刚 加 了 一 滴 染 料 的 水 ， 然 后 通过 对 初始 状态 进行 “演化 ”来 了 解 
这 杯 水 在 未 来 某 个 时 刻 的 样子 (u (x，dt) )。 这 种 类 型 的 问题 被 称 为 “ 初 值 问 
题 ” 或 “ 柯 西 问题 "。 
以 同样 的 有 限 差 分 近似 对 x 进行 求 导 ， 我 们 就 能 获得 最 终 的 方程 式 ; 
u(xX+dx,t)+u(x+dx,t)+2:.u(x,t) 

dx 
这 里 ， 和 qt 表示 帧 率 一 样 ，dx 表示 图 像 的 分 辨 率 一 一 dx 越 小 ， 则 我 们 矩阵 的 每 
一 个 单元 格 表示 的 区 域 就 越 小 。 为 了 简化 ,我 们 设 D = 1 且 dx = 1。 这 两 个 值 
在 物理 模拟 时 非常 重要 , 但 是 因为 我 们 只 是 以 扩散 方程 为 例子 来 说 明 问 题 , 它们 对 
我 们 并 不 重要 。 
我 们 能 用 这 个 等 式 解决 几乎 所 有 扩散 问题 。 但 是 ， 这 个 等 式 有 些 需 要 考虑 的 地 方 。 
首先 , 我 们 之 前 说 过 4 方 向 的 空间 索引 (参数 x) 代表 和 矩阵 中 的 索引 。 那 么 当 x 处 







































































u(x,t +dt)=u(x,t) +dt* D* 
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于 矩阵 的 起 始 索引 位 置 时 x-qx 的 值 代表 什么 呢 ?” 这 个 问题 被 称 为 部 名 条 他 。 你 可 
以 这 样 定义 固定 的 边界 条 件 :“ 任 何 超出 矩阵 边界 的 值 都 为 0”( 或 任意 其 他 值 )。 
或 者 , 你 也 可 以 定义 边界 值 环绕 的 周期 性 边界 条 件 (比如, 如果 你 和 矩阵 的 某 个 维度 
的 长 度 为 N， 那 么 索引 为 -1 的 值 就 等 于 索引 为 N-1 的 值 ， 而 索引 为 N 的 值 则 等 于 
索引 为 0 的 值 。 换 名 话说 ， 当 你 试图 访问 索引 奔 上 的 值 时 ， 你 得 到 的 就 是 位 于 索 
引 (i%$N) 上 的 值 )。 


另 一 个 需要 考虑 的 地 方 是 我 们 如 何 存储 u 的 多 个 时 间 分 量 。 我 们 可 以 让 一 个 矩阵 来 
保存 计算 所 需 的 所 有 时 间 值 。 看 起 来 我 们 需要 至 少 两 个 矩阵 : 一 个 保存 液体 的 当前 
状态 ， 一 个 保存 液体 的 下 一 状态 。 我 们 会 看 到 这 里 面 有 很 重要 的 性 能 考量 。 
那么 我 们 如 何 解决 实际 的 问题 ? 例 6-1 包含 了 一 些 伪 代 码 来 说 明 我 们 是 如 何 使 用 这 
个 等 式 来 解决 问题 的 。 

例 6-1 1 阶 扩散 方程 伪 代 码 


Create the initial conditions 
u = Vector of length N 








a 
































for i in range (N): 
u= 0 if there is water, 1 if there is dye 


Evolve the initial conditions 
D= 1 

t= 0 

dt = 0.0001 

while True: 





print "CuUrrent time is: %f" %t 
unew = Vector of size N 


# Update step for every cell 
for i in range (N) : 


unew[i] = u[i] + D* dt * (uaf[(i+l)sN] + u[(i-1)%$N] - 2 * ul[i]) 
# Move the updated solution into u 
u = unew 


visualize(u) 
这 段 代码 会 根据 水 中 染料 的 初始 条 件 来 告诉 我 们 每 一 个 0.0001 秒 之 后 的 未 来 系统 
是 什么 样 的 。 结 果 见 图 6-1， 图 中 显示 的 是 最 浓 的 染料 液 滴 〈 高 帽 函 数 ) 随时 间 的 
演化 。 我 们 可 以 看 到 染料 是 如 何 均 匀 混 合 ， 直 到 每 处 染料 的 浓度 都 相等 的 。 
为 了 本 章 的 目的 , 我 们 还 将 解决 方程 的 2 阶 版 本 。 这 意味 着 我 们 将 要 操作 一 个 2 阶 
和 矩阵， 而 不 是 一 个 矢量 (或 者 说 一 个 只 有 1 阶 的 矩阵 )。 对 方程 唯一 的 改动 (以 及 
相应 的 代码 改动 ) 是 现在 我 们 必须 计算 第 二 个 y 方 向 上 的 导数 。 这 意味 着 原始 的 方 
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6-1 1 阶 扩散 的 例子 
这 个 2 阶 扩散 方程 翻译 成 伪 码 如 例 6-2 所 示 ， 用 的 是 跟 之 前 一 样 的 方法 。 
例 6-2 计算 2 阶 差 分 的 算法 


for i in range (N) : 
for ] in range (M) : 
unew[i][j] = u[li][j] + dt * ( \ 
(u[ (i+l)sN] ID] + u[(i-1)%N][j] - 2 * u[i]l[j]) + \# qd°2 u / dx’2 
(ui][(+l)sM] + u[j][(j-1)%M] - 2 * u[i][j]) \# ac2u / dy”2 
) 


现在 我 们 可 以 将 所 有 的 代码 片段 组 装 到 一 起 , 并 写 出 完整 的 Python2 阶 扩散 代码 来 
作为 我 们 本 章 接 下 来 进行 性 能 参照 的 基准 。 代 码 虽 然 看 上 去 更 复杂 ， 结 果 却 近似 
阶 扩散 ( 见 图 6-2)。 


如 果 你 希望 阅读 更 多 本 节 的 主题 , 可 以 参考 扩散 方程 的 维基 百科 和 S.V.Gurevich 写 
的 第 7 章 “ 复 杂 系 统 的 数值 方法 ”。 
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t 为 0 秒 ，50 秒 和 250 秒 时 的 扩散 


0 seconds 


t= 


50 seconds 


t= 


250 seconds 





攻 











6-2 ”两 组 初始 条 件 扩散 的 例子 


6.2 Python 列表 还 不 够 吗 


让 我 们 将 例 6-2 的 伪 代 码 写 成 正式 代码 , 这 样 我 们 就 能 够 更 好 地 分 析 它 的 运行 时 性 
能 。 第 一 步 是 写 出 演化 函数 ， 它 接受 一 个 矩阵 并 返回 其 演化 后 的 状态 ， 见 例 6-3。 


例 6-3 纯 Python 2 阶 扩散 函数 


grid shape = (1024, 1024) 


def evolve (grid, dt, D=1.0): 

xmax, ymax = grid shape 

new grid = [[0.0,] * ymax for x in xrange (xmax)] 

for i in xrange (xmax): 

for ]j in xrange (ymax): 

grid xx = gridl[ (i+1) %xmax] [j] + grid[ (i-1)%xmax] [j] - 2.0 * griqd[i][j 
grid yy = grid[i][(j+1)%ymax] + grid[i][(j-1)%ymax] - 2.0 * grid[i][j 
new grid[li] [i] "grid[lil [lj] + D* (grid: xx + grid yy) * .QE 





] 
] 
return new grid 
备 忘 
其 实 相 比 预 分 配 一 个 new_griq 列表 ， 还 不 如 在 for 循环 中 用 
appends 建立 它 。 不 仅 速度 比 我 们 这 样 写 要 快 很 多 ， 结 果 也 是 一 样 
的 。 我 们 之 所 以 使 用 现在 这 个 方法 是 因为 它 能 解释 得 更 清楚 。 
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全 局 变量 grid_shape 表示 我 们 模拟 的 区 域 有 多 大 。 另 外 ， 在 6.1 市 中 解释 过 ， 




















我 们 使 用 的 是 周期 性 边界 条 件 〈 这 也 是 为 什么 我 们 需要 对 索引 取 模 )。 为 了 实际 使 
用 这 段 代 码 ， 我 们 必须 初始 化 一 个 矩阵 并 对 其 调用 evolve。 例 6-4 中 的 代码 是 一 
个 非常 通用 的 初始 化 过 程 ,将 在 本 章 多 次 被 重用 ( 它 的 性 能 将 不 会 被 分 析 ， 因 为 它 
只 运行 一 次 ， 不 像 evolve 函数 将 被 重复 调用 )。 


例 6-4 纯 Python 2 阶 扩散 初始 化 函数 


def run experiment (num iterations): 


























# Setting up initial conditions ©@ 
xmax, ymax = grid shape 
grid = [[0.0,] * ymax for x in xrange (xmax)] 


block low = int(grid shape[0] * .4) 
block high = int(grid shape[0] * .5) 
for i in xrange (block low, block high) : 
for j in xrange (block low, block high) : 
grid[t] [3 = 0.a005 


# Evolve the initial conditions 

start = time.time () 

for i in range (num iterations): 
grid = evolve (grid, 0.1) 

return time.time() - start 


@ 这 里 使 用 的 初始 条 件 跟 图 6-2 的 方形 例子 相同 。 

我 们 特地 选择 了 足够 小 的 dt 和 和 拖 阵 元 素 的 值 来 让 算法 稳定 。 对 这 个 算法 的 收敛 特 
性 更 深入 的 讨论 见 Willian Press 等 人 的 著作 《Numerical Recipes》 第 三 版 。 

分 配 次 数 太 多 带 来 的 问题 

通过 对 纯 Python 演化 函数 使 用 1ine_profiler， 我们 就 能 开始 理解 运行 变 慢 可 
能 是 什么 原因 导致 的 。 见 例 6-5 的 分 析 输 出 ,我 们 看 到 函数 大 多 数 时 间 花 在 了 求 导 












































和 更 新 矩阵 上 。 这 正 是 我 们 所 需要 的 , 因为 这 是 一 个 纯粹 的 CPU 密集 型 问题 一 一 
任何 不 是 花 在 CPU 上 的 时 间 都 是 一 个 明显 的 优化 对 象 。 


例 6-5 纯 Python2 阶 扩散 函数 分 析 


$ kernprof.py -lv diffusion python.py 
Wrote profile results to diffusion python.py.1lprof 


Timer unit: le-06 s 





File: diffusion python.py 

















@ 这 段 受 分 析 代码 来 自 例 6-3, 截取 了 部 分 以 适应 页 面 边界 。 别 忘 了 kernprof.py 需要 函数 被 @profile 修饰 才 


能 对 划 















































进行 分 析 ( 见 2.8 节 
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Function: evolve at line 8 
Total time: 16.1398 s 








Line # Hits Time Per Hit % Time Line Contents 
8 @profile 
9 def evolve (grid, dt, D=1.0): 

10 10 39 3.9 0.0 xmax, ymax = grid shape# ©@ 
11 2626570 2159628 68 13.4 new grid = .. 

12 5130 4167 0.8 0.0 for i in xrange (xmax) : # 四 
13 2626560 2126592 0.8 二 3352 for j in xrange (ymax): 
14 2621440 4259164 二 :有 26.4 grid Xx 二 

15 2621440 4196964 1.6 26.0 grid yy = ... 

16 2621440 3393273 3 21;;0 new grid[i][j]=... 
17 10 10 1.0 Qi0 return grid # © 


@ 这 条 语句 用 了 这 人 么 长 时 间 是 因为 grid_shape 必须 从 本 地 名 字 空 间 获得 ( 见 


@ 这 行 命中 了 5130 次 ,意味 着 我 们 操作 的 矩阵 的 xmax 为 512。 因 为 需要 对 xrange 
中 的 每 一 个 值 求 值 512 次 加 上 对 循环 终止 条 件 求 一 次 值 , 而 这 些 一 共 发 生 了 10 次 。 
@ 这 行 命中 10 次 ， 告 诉 我 们 这 个 被 分 析 浮 数 运行 了 10 次 。 

但 是 ， 输 出 也 显示 我 们 有 20% 的 时 间 花 费 在 分 配 new_grig 列表 上 。 这 是 一 个 浪 
费 , 因为 new_grid 的 属性 不 会 发 生变 化 一 一 无 论 我 们 传人 evolve 的 值 是 什么 ， 
new_grid 列表 始终 具有 相同 的 形状 和 大 小 , 包含 同样 的 值 。 一 个 简单 优化 是 只 分 
一 次 并 重用 它 。 这 种 优化 类 似 于 将 重复 代码 移 至 循环 外 : 


from math import sin 






























































def loop_ slow(num iterations): 
mr 
>>> Stimeit loop slow(int (1e4)) 
100 loops, best of 3: 2.67 ms per loop 
Pr PT 
result = 0 
for i in xrange (num iterations): 
result += i * sin(num iterations) # ©@ 
return result 


def loop fast (num iterations): 
mm 
>>> Stimeit loop fast (int (1e4)) 
1000 loops, best of 3: 1.38 ms per loop 


mm 


result = 0 
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factor = Sin(num iterations) 

for i in xrange (num iterations) : 
EESUTG = 社 

return result * factor 








@ sin (num iterations) 的 值 在 循环 内 不 会 改变 , 所 以 不 需要 每 次 重新 计算 它 


我 们 可 以 对 扩散 代码 进行 类 似 的 转换 , 如 例 6-6 所 示 。 在 此 , 我 们 将 例 6-4 的 new_ 
grid 实例 化 之 后 再 传人 我 们 的 evolve 函数 。 该 函数 做 的 事情 跟 之 前 一 样 : 读 取 
grid 列表 并 写 人 新 的 new_grig 列表 。 然 后 ， 我 们 可 以 简单 交换 new_grid 和 


grid 并 继续 。 


例 6-6 减少 内 存 分 配 之 后 的 纯 Python 2 阶 扩散 函数 
def evolve (grid, dt, out, D=1.0): 
xmax, ymax = grid shape 
for i in xrange (xmax) : 
for ] in xrange (ymax): 
grid xx = grid[ (i+1)%xmax] [j 
grid yy = grid[i][(j+1)%yma 
out[i][j] = gridq[i] 


























] 
x] 


def run experiment (num iterations): 
# 襄 息 条 轮 条 从 


xmax, ymax = grid shape 





























+ grid[ (i-1)%xmax 
+ grid[i][(j-1)%ymax] - 2.0 * grid[i][j] 
| tiD we (grid xx gLid. yy * "dt 











] [j] 


next grid = [[0.0,] * ymax for x in xrange (xmax)] 


grid = [[0.0,] * ymax for x in xrange (xmax)] 


block low = int(grid shape[0] * .4) 
block high = int(grid shape[0] * .5) 
for i in xrange (block low, block high) : 
for j in xrange (block low, block high) : 
grid[i][j] = 0.005 


start = time.time () 

for i in range (num iterations): 
evolve (grid, 0.1, next grid) 
grid, next grid = next grid, grid 

return time.time() — start 














- 2.0 * grid[i] [j] 


在 例 6-7 的 分 析 结 果 中 ， 我 们 可 以 看 到 经 过 这 个 细小 的 修改 后 的 版 本 给 我 们 带 来 


了 21% 的 速度 提升 。 这 个 结论 跟 之 前 对 列表 的 append 操作 给 我 们 的 结论 ( 见 3.2.1 





节 ) 类 似 : 内 存 分 配 不 便宜 。 每 次 当 我 们 需要 内 存 用 于 存储 一 个 变 





量 或 列表 , Python 








都 必须 花 时 间 向 操作 系统 申请 更 多 内 存 空间 , 然后 还 要 遍历 新 分 


始 化 为 某 个 值 。 任何 时 候 只 要 有 可 能 , 重用 已 分 配 的 内 存 空 








边界 。 





@ 这 段 受 分 析 代码 来 自 例 6-6， 截 取 了 部 分 以 适应 页 面 




















pa 











间 都 











的 空间 来 将 它 初 














能 为 我 们 带 来 速度 
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提升 。 不 过 ， 要 小 心 实现 这 些 改动 。 速 度 提升 固然 可 观 ， 你 还 是 需要 通过 分 析 来 确 
保 这 是 你 想 要 的 结果 ， 而 不 是 污染 你 代码 库 的 垃圾 。 


例 6-7 ”减少 内 存 分 配 后 的 Python 扩散 函数 的 分 析 结 

$ kernprof.py -lv diffusion Python memory.py 

Wrote profile results to diffusion python memory.py.1lprof 
Timer unit: le-06 s 























File: diffusion python memory.py 
Function: evolve at line 8 
Total time: 13.3209 s 








Line # Hits Time Per Hit % Time Line Contents 

8 @profile 

9 def evolve (grid, dt, out, D=1.0): 
10 由 15 5 0.0 xmax, ymax = grid shape 
网 5130 3853 0.8 0.0 for i in xrange (xmax): 
12 2626560 1942976 日志 Ti6 for ]j in xrange (ymax): 
3 2621440 4059998 5 3055 grid xx = .. 
14 2621440 4038560 is) 30%3 grid yy = 
15 2621440 3275454 1 这 24.6 out[i][j] = .. 


6.3 内存 碎片 


我 们 在 例 6-6 写 的 Python 代码 还 有 一 个 问题 ， 也 是 使 用 Python 进行 此 类 矢量 计算 
的 核心 问题 : 原生 Python 并 不 支持 矢量 操作 。 这 有 两 个 原因 : Python 列表 存储 的 
是 指向 实际 数据 的 指针 ， 且 Python 字 节 码 并 没有 针对 矢量 操作 进行 优化 ,所 以 for 
循环 无 法 预测 何 时 使 用 矢量 操作 能 带 来 好 处 。 


Python 列表 储存 的 是 疹 乡 意味 着 列表 保存 的 并 不 是 实际 的 数据 , 而 是 这 些 数据 的 位 
置 。 在 大 多 数 情况 下 , 这 是 一 种 优势 ， 因 为 它 允 许 我 们 在 列表 中 存储 任意 类 型 的 数 
据 。 但 是 对 于 矢量 和 和 矩阵 操作 ， 这 会 导致 性 能 的 大 幅 下 降 。 


性 能 下 降 的 原因 在 于 每 次 我 们 需要 获得 9rid 矩阵 中 的 元 素 时 , 我 们 都 必须 进行 多 
次 查找 。 比 如 ，gzid[5] [2] 这 样 的 语句 需要 我 们 首先 对 列表 grid 查找 索引 5。 
这 会 返回 一 个 指针 指向 数据 所 在 的 位 置 。 然后 我 们 需要 第 二 次 列表 查找 找到 索引 2 
的 元 素 。 查 到 之 后 ， 我 们 得 到 的 是 实际 数据 所 储存 的 位 置 。 

一 次 这 样 的 查找 开销 并 不 大 ,在 大 多 数 情况 下 可 以 忽略 。 但是， 如果 我 们 想 要 定位 
的 数据 在 内 存 的 一 个 连续 存储 块 内 , 我 们 本 来 可 以 一 次 性 将 所 有 的 数据 全 部 读 取出 
来 ,而 不 是 分 别 对 每 个 元 素 进行 两 次 操作 。 这 是 数据 分 片 的 一 个 主要 问题 当 你 的 
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数据 被 分 成 小 片 ,你 


只 能 对 每 一 片 分 别 进行 传输 ,而 不 是 一 次 性 传输 整个 块 。 
味 着 你 引入 了 更 多 的 内 存 传输 开销 ， 且 强制 CPU 在 数据 传输 的 过 程 中 等 待 。 





可 以 用 perf 看 到 在 缓存 失效 的 情况 下 这 个 问题 会 有 多 严重 。 


这 个 在 正确 的 时 候 将 正确 的 数据 传输 给 CPU 的 问题 被 称 为 “ 冯 诺 伊 曼 ;} 


是 现代 计算 机 所 使 用 的 层次 化 的 内 存 架构 会 导致 CPU 和 内 存 之 间 的 带宽 受到 限 



































岂 肛 ”。 
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制 。 如 果 我 们 数据 传输 的 速度 可 以 无 限 快 ， 我们 就 不 需要 任何 缓存 ， 因 为 CPU 可 


以 立即 获得 任何 它 需 要 的 数据 。 此 时 


由 于 数据 传输 的 速度 不 可 能 无 限 快 ， 我们 必须 从 RAM 中 预 取 数 据 并 将 其 保存 在 
希望 当 CPU 需要 某 个 数据 时 ， 它 可 以 从 中 更 





一 个 更 小 但 更 快 的 CPU 缓存 中 ,二 























玫 颈 就 不 再 存在 。 








快 读 取 到 。 虽 然 这 已 经 是 一 个 严重 理想 化 了 的 场景 我们 依然 可 以 看 到 其 中 的 一 
些 问 题 一 一 我 们 如 何 知道 未 来 需要 哪些 数据 ? CPU 内 部 的 分 支 预测 和 流水 线 技 


术 会 试图 在 处 理 当 前 指令 的 同时 预测 其 下 一 条 指令 六 











是 减少 瓶颈 最 好 的 方法 是 让 代码 知道 如 何 分 
数据 进行 计算 。 


探测 内 存 移动 至 CPU 的 他 


行 perf 3 
perf 例子 的 输 1 











用 于 表示 测量 值 用 
度 上 依赖 于 实际 

















的 程序 特 忆 











正在 使 用 系统 资源 的 程序 。 














例 6-8 


减少 内 存 分 


$ perf stat -e cycles,s 



































能 相当 困难 ， 不 过 ，Linux 上 的 perf 工具 可 以 让 我 1 
洞察 CPU 如 何 处 理 运行 中 的 程序 。 比 如 ， 我 们 可 以 对 例 6-6 的 纯 Python 代码 运 
ff 看 到 CPU 运行 我 们 代码 的 效率 。 结 果 见 例 6-8。 注 意 该 例 以 及 之 后 的 
都 被 截取 以 适应 页 面 边界 。 被 删除 的 数据 包括 各 测量 值 的 方差 ， 
E 几 次 测量 中 发 生 了 多 大 的 变化 。 这 有 助 于 看 到 测量 值 在 多 大 程 
以 及 多 大 程度 上 受到 来 自 系统 的 其 他 干扰 ， 比 如 其 他 








F 将 相应 的 内 存 读 进 缓存 。 但 
我 们 的 内 存 以 及 如 何 使 用 我 们 的 





站 














后 纯 Python 2 阶 扩散 函数 的 性 能 指标 


talled-cycles-frontend, stalled-cycles-backend, instructions, \ 


cache-references,cache-misses,branches,branch-misses,task-clock, faults, \ 
minor-faults,cs,migrations -r 3 python diffusion python memory.py 


Performance counter stats for 'python diffusion Python memory.py' 


329; 
76, 
46， 

598, 


155, 359;015 
800,457,550 
556,100,820 
135,111,009 


35; 497,196 
10,716, 972 
133,881,241,254 
2,891,093,384 
94678.127621 


cycles 
stalled-cycles-frontend 
stalled-cycles-backend 
instructions 


cache-references 
cache-misses 
branches 
branch-misses 
task-clock 








.16% 
.999 CPUs utilized 


(3 runs): 


.477 GHz 

.33% frontend cycles idle 
.14%$ backend cycles idle 
.82 insns per cycle 

.13 stalled cycles per insn 
.375 M/sec 

.191 %$ of all cache refs 


067 M/sec 
of all branches 





104 


异步 社区 会 员 woshigedushuren(13120020972) 专 享 尊重 版 权 


5,439 page-faults 0.057 K/sec 


# 
5,439 minor-faults # 0.057 K/sec 
125 context-switches # 0.001 K/sec 
6 CPU-migrations # 0.000 K/sec 


94.749389121 seconds time elapsed 


6.3.1 理解 perf 
让 我 们 花 一 秒 钟 来 理解 perf 告诉 我 们 的 各 种 性 能 指标 以 及 它们 跟 我 们 代码 的 关 
系 。task-clock 指标 告诉 我 们 的 任务 花 了 多 少 个 时 钟 周期 。 这 跟 总 体 的 运行 时 
间 不 同 ， 因 为 如 果 我 们 的 程序 花 了 一 秒 钟 来 运行 但 是 使 用 了 两 个 CPU ， 那 么 
task-clock 将 是 1000 (task-clock 的 单位 是 毫秒 )。 方 便 的 是 ，perf 会 帮 我 
们 计算 并 在 该 指标 旁边 告诉 我 们 有 多 少 个 CPU 被 使 用 了 。 这 个 数字 不 完全 等 于 1 
是 因为 进程 有 一段 时 间 依赖 于 其 他 子 系统 的 指令 (比如 分 配 内 存 时 )。 


context-switches 和 CPU-migrations 告诉 我 们 程序 在 等 待 内 核 操 作 ( 如 IO 
操作 ) 完成 时 ， 为 了 让 其 他 进程 得 以 运行 ， 被 挂 起 或 迁移 到 男 一 个 CPU 核心 上 执 
行 的 次 数 。 当 一 个 context-switch 发 生 时 程序 的 执行 会 被 挂 起 ,让 另 一 个 程序 
得 以 执行 。 这 是 一 个 对 时 间 要 求 非常 精细 的 任务 ， 也 是 我 们 需要 尽量 避免 的 ， 但 是 
我 们 对 它 的 发 生 无 能 为 力 。 只 要 进程 允许 切换 ， 内 核 就 会 接手 ; 不 过 ， 我 们 可 以 做 
一 些 事 来 抑制 内 核 切换 我 们 的 程序 。 总 的 来 说 ， 内 核 会 在 程序 进行 TO (比如 读 取 
内 存 、 磁 盘 或 网 络 ) 时 将 其 挂 起 。 我 们 在 后 续 章 节 会 看 到 ， 我 们 可 以 用 异步 操作 来 
确保 我 们 的 程序 在 等 待 1/O 时 继续 使 用 CPU , 这 会 让 我 们 的 进程 继续 运行 而 不 被 切 
换 出 去 。 另 外 , 我 们 还 可 以 设置 程序 的 nice 值 来 给 我 们 的 程序 更 高 的 优先 级 以 防 
止 内 核 将 它 切换 出 去 。 类 似 的 ，CPU-migrations 会 发 生 在 进程 被 挂 起 并 迁移 到 
另 一 个 CPU 上 继续 执行 的 情况 ， 这 是 为 了 让 所 有 的 CPU 都 有 同样 程度 的 利用 率 。 
这 可 以 被 认为 是 一 个 特别 糟糕 的 进程 切换 ， 因为 我 们 的 程序 不 仅 被 暂时 挂 起 , 而 且 
丢失 了 LI1 缓存 内 所 有 的 数据 (每 个 CPU 都 有 它 自己 的 Ll 缓存 )。 


page-fault 是 现代 UNIX 内 存 分 配 机 制 的 一 部 分 。 分 配 内 存 时 ， 内 核 除 了 告诉 
程序 一 个 内 存 的 引用 地 址 以 外 没 做 任何 事 。 但 是 ,之 后 在 这 块 内 存 第 一 次 被 使 用 时 ， 
操作 系统 会 抛 出 一 个 缺 页 小 中 断 , 这 将 暂停 程序 的 运行 并 正确 分 配 内 存 。 这 被 称 为 
延迟 分 配 系统 。 虽 然 这 种 手段 相 比 以 前 的 内 存 分 配 系统 是 一 个 很 大 的 优化 ,， 缺 页 小 
中 断 本 身 依然 是 一 个 相当 昂贵 的 操作 , 因为 大 多 数 操作 都 发 生 在 你 的 程序 外 部 。 另 
外 还 有 一 种 缺 页 大 中 断 ， 发 生 于 当 你 的 程序 需要 从 设备 〈 磁 盘 、 网 络 等 ) 上 请 求 还 
未 被 读 取 的 数据 时 。 这 些 操作 更 加 昂贵 ， 因 为 他 们 不 仅 中 断 了 你 的 程序 ， 还 需要 读 
取 数 据 所 在 的 设备 。 这 种 缺 页 不 总 是 影响 CPU 密集 的 工作 ， 但 是 ， 它 会 给 任何 需 
要 读 写 磁盘 或 网 络 的 程序 带 来 痛苦 。 
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一 旦 我 们 引用 内 存 中 的 数据 , 数据 就 需要 通过 内 存 的 多 个 层级 (对 此 的 讨论 见 1.1.3 
节 “通信 层 ”)。 每 当 我 们 引用 缓存 中 的 数据 , cache-references 指标 就 会 增加 。 
如 果 我 们 的 缓存 中 还 没有 数据 并 需要 从 RAM 获取 , cache-miss 指标 的 计数 就 会 
增加 。 如 果 我 们 读 取 一 个 最 近 刚 读 过 的 数据 (那个 数据 还 在 缓存 里 ) 或 者 读 取 的 数 
据 在 最 近 刚 读 过 的 数据 盛 炮 (缓存 从 RAM 中 按 块 读 取 数据 )， 绥 存 失效 就 不 会 发 
生 。 缓 存 失效 会 拖 慢 CPU 密集 型 工作 ， 因 为 我 们 不 仅 需 要 等 待 数 据 从 RAM 被 读 
取 ， 而 且 中 断 了 我 们 的 执行 流水 线 (马上 会 说 到 这 个 )。 本 章 后 面 将 讨论 如 何 通 过 
优化 内 存 中 的 数据 布局 降低 缓存 失效 。 


Instructions 指标 告诉 我 们 的 代码 让 CPU 总 共 执行 了 多 少 条 指令 。 流 水 线 技术 
让 CPU 能 在 同一 时 间 执 行 多 条 指令 ，insns per cycle 指标 会 告诉 我 们 一 个 时 钟 
周期 内 具体 了 几 条 。 为 了 更 好 地 优化 流水 线 ，stalled-cycles-frontend 和 
stalled-cycles-backend 告诉 我 们 的 程序 在 等 待 流水 线 的 前 端 或 后 端 填 满 指 
令 时 等 待 了 多 少时 钟 周期 。 这 可 能 是 由 于 一 次 缓存 失效 ,一 次 错误 的 分 支 预测 或 一 
次 资源 冲突 。 流 水 线 前 端 负责 从 内 存 中 获取 下 一 条 指令 并 解码 成 一 个 合法 的 操作 ， 
而 后 端 则 负责 实际 执行 操作 。 有 了 流水 线 ，CPU 就 能 在 运行 当前 指令 的 同时 获取 
并 准备 下 一 条 指令 。 


branch 是 代码 执行 流程 发 生 改变 的 地 方 。 想 象 一 条 if. .then 语句 一 一 基于 条 
件 语句 的 结果 , 我 们 会 执行 不 同 的 代码 段 。 这 就 是 代码 执行 的 分 支 一 一 下 一 条 指令 
将 是 两 者 之 一 。 为 了 优化 ， 特 别 是 在 使 用 了 流水 线 的 情况 下 ，CPU 会 试图 猜测 分 
支 的 走向 并 预 取 与 其 相关 的 指令 。 当 预测 出 错时 ， 就 会 发 生 stalled-cycles 和 
branch-miss。 分 支 失效 是 相当 令 人 困惑 的 ,并 可 能 导致 很 多 奇怪 的 现象 (比如 ， 
某 些 循环 在 排序 列表 上 跑 得 远 比 乱 序 列表 快 , 仅仅 是 因为 发 生 了 更 少 的 分 支 失效 )。 
备 忘 
如 果 你 想 要 一 个 在 CPU 层面 各 种 性 能 指标 更 彻底 的 解释 ， 请 参考 
Gurpur M. Prabhu 的 “计算 机 架构 导论 ”。 它 讲述 在 很 底层 发 生 的 故事 ， 
让 你 对 代码 运行 时 底层 发 生 的 一 些 事 有 一 个 很 好 的 理解 。 














































































































6.3.2 ”根据 perf 输出 做 出 抉择 

例 6-8 的 性 能 指标 告诉 我 们 在 运行 我 们 的 代码 时 ，CPU 需要 访问 LIL2 缓存 
35 497 196 次 ， 其 中 10 716 972 次 (30.191%) 是 由 于 请 求 的 数据 不 在 内 存 中 而 需 
要 被 获取 。 另 外 ， 我 们 可 以 看 到 每 个 CPU 周期 我 们 能 平均 执行 1.82 条 指令 ， 这 告 
诉 了 我 们 通过 流水 线 ， 乱 序 执行 以 及 超 线程 技术 (或 者 任何 其 他 能 够 让 你 的 CPU 
在 一 个 时 钟 周期 内 执行 多 条 指令 的 技术 ) 给 予 我 们 的 性 能 增幅 。 
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数据 的 分 片 不 仅 增加 了 从 内 存 传输 数据 到 CPU 的 次 数 ， 还 让 你 无 法 进行 矢量 计 
算 ， 因 为 在 计算 时 你 的 CPU 缓存 中 并 没有 多 个 数据 。 我 们 在 1.1.3 节 中 解释 过 ， 
矢量 计算 (或 者 说 让 CPU 在 同一 时 间 进 行 多 个 计算 ) 仅 能 发 生 在 我 们 能 够 将 相 
关 数 据 填 满 CPU 缓存 的 情况 下 。 由 于 总 线 只 能 移动 连续 的 内 存 数据 ， 也 就 是 说 
只 有 当 格子 中 的 数据 在 RAM 中 顺序 储存 时 才 有 可 能 。 由 于 我 们 的 列表 存储 的 是 
数据 的 指针 而 不 是 实际 数据 ， 格 子 中 实际 的 值 被 分 散在 内 存 里 ， 无 法 一 次 性 全 
部 复制 。 


我 们 可 以 通过 使 用 array 模块 代替 列表 来 减轻 这 个 问题 。array 对 象 可 以 在 内 存 
中 顺序 储存 数据 ， 一 段 array 实际 代表 了 一 段 连续 的 内 存 。 但 是 这 并 没有 完全 解 
决 问题 一 一 现在 我 们 有 了 内 存 中 的 连续 存储 的 数据 ， 但 Python 依然 不 知道 如 何 对 
我 们 的 循环 进行 矢量 计算 ,我 们 想 要 的 是 让 原本 一 次 只 能 处 理 一 个 数组 元 素 的 循环 
现在 一 次 能 够 处 理 多 个 数据 , 但 是 之 前 说 过 , Python 没有 这 样 的 字 节 码 优化 (部 分 
是 由 于 Python 语言 极端 的 动态 特性 )。 


备 忘 

为 什么 我 们 顺序 存储 在 内 存 中 的 数据 不 能 自动 矢量 化 ”如 果 我 们 看 
看 CPU 运行 的 机 器 指令 ， 就 会 发 现 矢量 操作 (比如 两 个 数组 相 乘 ) 
和 非 拓 量 操作 使 用 的 是 不 同 的 CPU 计算 单元 和 指令 集 ,为 了 让 Python 
能 够 使 用 这 些 特殊 指令 ， 我 们 必须 有 一 个 模块 专门 用 来 使 用 这 些 指令 
集 。 我 们 马上 会 看 到 numpy 如 何 让 我 们 能 够 访问 这 些 特殊 指令 。 
















































































另外 , 由 于 实现 细节 ,使 用 array 类 型 来 创建 数据 列表 实际 上 比 使 用 1ist 要 慢 。 
这 是 因为 array 对 象 存 储 的 数据 是 一 个 非常 底层 的 抽象 ， 在 用 户 使 用 它们 时 必须 
被 转换 成 一 个 Python 兼容 的 版 本 。 这 个 额外 的 开销 在 你 每 次 索引 一 个 array 类 型 
时 都 会 发 生 。 这 一 实现 细节 导致 了 array 对 象 不 适用 于 数学 计算 而 更 适用 于 在 内 
存 中 存放 类 型 固定 的 数据 。 


6.3.3 使 用 numpy 

为 了 解决 perf 发 现 的 分 片 问题 ,我 们 必须 找到 一 个 可 以 进行 高 效 矢量 操作 的 模 
块 。 幸 运 的 是 ，numpy 拥有 我 们 需要 的 所 有 特性 一 一 它 能 将 数据 连续 存储 在 内 存 
中 并 支持 数据 的 矢量 操作 。 结 果 就 是 ， 任 何 我 们 对 numpy 数组 的 数学 操作 都 能 自 
动 矢量 化 而 无 须 我 们 显 式 遍 历 每 一 个 元 素 。 这 不 仪 仅 让 和 矩阵 计算 更 简单 , 而且 也 更 
快 。 让 我 们 看 这 样 一 个 例子 : 


from array import array 
import numpy 
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def norm square list (vector): 
Fr Fr Fr 
>>> Vector = range (1000000) 
>>> 3timeit norm square list (vector 1ist) 
1000 loops, best of 3: 1.16 ms per loop 
Fr Fr Fr 
norm = 0 
for V in vector: 
norm 十 = VxV 
return norm 


def norm square list comprehension(vector): 
下 下 下 
>>> Vector = range (1000000) 
>>> 8%timeit norm square list comprehension (vector 1ist) 
1000 loops, best of 3: 913 ns Per loop 


mm 


return sum([v*v for Vv in vector]) 


def norm squared generator comprehension (vector): 
mm 
>>> vector = range (1000000) 
>>> 8%timeit norm square generator comprehension (vector 1ist) 
1000 loops, best of 3: /47 nus Per loop 


下 下 下 


return sum(v*v for Vv in Vector) 


def norm square array (vector): 
Fr Pr FT 
>>> Vector = array('1', range (1000000)) 
>>> 28timeit norm square array (vector array) 
1000 loops, best of 3: 1.44 ms Per loop 
FF Pr FF 
norm = 0 
for V in vector: 
norm 十 = VxV 
return norm 


def norm square numpy (vector): 
rmrrr 
>>> vector = numpy.arange (1000000) 
>>> 38timeit norm square numpy (vector numpy) 
10000 loops, best of 3: 30.9 us Per loop 


mm 


return numpy.sum(vector * vector) # 各 


def norm square numpy dot (vector): 
mm 


>>> vector = numpy.arange (1000000) 
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>>> 8%timeit norm square numpy dot (vector numpy) 
10000 loops, best of 3: 21.8 us Per loop 
rrr 


return numpy.dot (vector, vector) # 四 
@ 这 创建 了 vector 上 的 两 个 隐 式 循环 ， 一 个 用 于 做 乘法 ， 另 一 个 求 和 。 这 两 个 
循环 类 似 norm squre list comprehension 中 的 循环 ， 只 是 使 用 了 numpy 
优化 的 数学 代码 。 


@ 这 才 是 numpy 中 求 矢 量 范 数 的 推荐 做 法 ， 通 过 矢量 化 的 numpy . qot 操作 。 前 
下 提供 的 低 效 的 norm_squre_numpy 代码 仅 作 说 明 用 途 


这 段 简单 的 numpy 代码 运行 速度 是 norm square_1list 的 37.54 倍 ， 比 使 用 
Python 列表 “优化 ”后 的 版 本 也 要 快 29.5 倍 。 纯 Python 循环 和 列表 优化 版 本 在 速 
度 上 的 差距 体现 了 让 后 台 进 行 更 多 计算 相 比 于 Python 代码 显 式 计算 的 优势 。 
Python 是 用 C 语言 写 的 ， 利 用 Python 内 建 机 制 进行 运算 ,我 们 就 获得 了 原生 C 代 
码 的 速度 。 我 们 在 numpy 代码 中 有 如 此 大 的 速度 提升 也 是 基于 同样 的 原因 : 我 们 
使 用 了 高 度 优化 且 特 殊 构 建 的 对 象 取代 了 通用 的 列表 结构 来 处 理 数 组 。 


除了 更 轻 量 级 且 特 化 的 机 制 ，numpy 对 象 还 给 了 我 们 内 存 的 本 地 性 和 矢量 操作 ， 
它们 在 处 理 数值 计算 时 尤其 重要 。CPU 是 超 快 的 ， 大 多 数 时 候 ， 仅 仅 提 升 其 获取 
所 需 的 数据 的 速度 就 是 最 好 的 优化 手段 。 我 们 之 前 使 用 perf 0 
示 了 使 用 array 的 版 本 和 纯 Python 版 本 的 函数 花费 了 大 约 1 x 101 条 指令 
numpy 版 本 花费 了 大 约 3x 10 条 。 另 外 ，array 和 纯 Python 版 本 大 约 有 
存 失效 而 numpy 只 有 大 约 55%。 


我 们 的 norm_square_numpy 代码 中 ， 在 运算 vector * vector 时 , numpy 
会 为 我 们 隐 式 调用 一 个 循环 。 该 循环 和 我 们 在 其 他 例子 中 显 式 调用 的 一 样 : 遍 
历 vectoz 内 的 每 一 项 ， 乘 以 其 自身 。 但 是 ， 由 于 我 们 让 numpy 来 干 这 件 事 而 
不 是 自己 用 Python 代码 实现 ，numpy 就 可 以 进行 任何 它 想 要 的 优化 。numpy 
在 后 台 有 极其 优化 的 C 代码 来 专门 使 用 CPU 的 矢量 操作 。 另外 , numpy 数组 在 
内 存 中 是 连续 储存 的 底层 数字 类 型 ， 和 “(array 模块 中 的 ) array 对 象 有 同样 
的 空间 需求 。 


另外 还 有 一 个 额外 好 处 是 ，numpy 支持 我 们 将 问题 重新 描述 为 一 个 点 积 。 这 
让 我 们 可 以 用 一 个 单一 操作 来 计算 我 们 想 要 的 值 ， 而 不 是 计算 两 个 矢量 的 乘 具 
求 和 。 在 图 6-3 中 可 以 看 到 ， 由 于 该 函数 的 特 化 ，norm_numpy_qot 的 效 
率 大 大 超越 了 其 他 所 有 函数 ， 这 也 是 因为 我 们 不 需要 存储 Vector * Vector 
的 中 间 结 果 。 
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pe 各 种 范 数 平方 函数 的 运行 时 间 


oo norm_square_array 


mum norm_square_list_comprehension 

1200 en norm square_generator_comprehension 区 
pi * norm_square_list VS 
4 一， norm_square_numpy RS 


1000 SM 
nng norm_square_numpy_dot RS 


eco 
© 
© 


间 ( 毫秒 ) 一 越 短 越 好 
名 
v 


a 
© 
©S 


运 


200 





区 
0 1000000 2000000 3000000 4000000 5000000 6000000 7000000 8000000 
矢量 长 度 


6-3 ”对 不 同 长 度 的 矢量 求 范 数 平方 的 函数 运行 时 间 


6.4 用 numpy 解决 扩散 问题 


利用 我 们 刚刚 学 到 的 numpy， 我 们 就 可 以 轻松 地 把 之 前 的 纯 Python 代码 矢量 化 。 
唯一 需要 引入 的 新 功能 是 numpy 的 roll 函数 。 该 函数 和 我 们 手写 的 数组 轮转 技 
巧 一 样 ， 但 它 运行 在 一 个 numpy 数组 上 。 一 言 以 项 之 ， 它 能 将 下 面 的 数组 轮转 操 























>>> import numpy as np 
33> np.rolLl([12,3,4], 1) 
array ([4, 1, 2, 3]) 


>>> nprolL([ [lly23)7 [4;5;6] 1] 1 aries) 
array ([[3, 1, 2], 
[6, 4, 5]]) 


roll 函数 创建 了 一 个 新 的 numpy 数组 ， 这 一 点 有 利 有 弊 。 坏 处 是 我 们 需要 额外 
的 时 间 开 销 来 分 配 新 的 空间 ， 然 后 还 需要 用 合适 的 数据 填 满 它 。 另 一 方面 ,一旦 我 
们 创建 了 这 个 轮转 后 的 新 数组 , 我 们 立刻 就 能 够 在 其 上 进行 矢量 操作 , 而 不 会 受到 
CPU 缓存 失效 的 影响 。 这 可 以 极 大 影响 我 们 对 矩阵 数据 运算 的 速度 。 在 本 章 后 续 
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我 们 还 将 重 写 这 部 分 代码 来 获得 同样 的 好 处 而 又 不 至 于 频繁 分 配 更 多 内 存 。 


有 了 这 个 额外 的 函数 ， 我 们 就 能 将 例 6-6 的 Python 扩散 代码 用 更 简单 且 矢 量化 的 
numpy 数组 重 写 。 另 外 ， 我 们 将 grid_xx 和 grid_yy 的 微分 计算 打 散 至 另 一 个 
函数 。 例 6-9 展示 了 我 们 第 一 版 的 numpy 扩散 代码 。 


例 6-9 初版 numpy 扩散 


import numpy as np 




















grid shape = (1024, 1024) 


def laplacian (grid): 
return np.roll(grid, +1, 0) + np.roll(grid, -1, 0) + \ 
NpsTOoLTLl (GEid tl Ty) + TrolL(grid,, SL; 1L) = grid 


def evolve (grid, dt, D=1): 
return grid + dt * D * laplacian (gridqd) 





def run experiment (num iterations): 
grid = np.zeros (grid shape) 


block low = int(grid shape[0] * .4) 
block high = int (grid shape[0] * .5) 
grid[block low:block high, block low:block high] = 0.005 


start = time.time() 

for i in range (num iterations): 
grid = evolve (grid, 0.1) 

return time.time() - start 


我 们 会 立刻 发 现 这 段 代码 短 多 了 。 这 通常 预示 着 高 性 能 : 我 们 将 很 多 重活 累 活 移 到 
Python 解释 器 之 外 ,让 模块 内 建 的 优化 代码 来 帮 我 们 解决 特定 的 问题 (但 是 , 这 必 
须要 经 过 测试 !)。 我 们 的 假设 是 numpy 有 更 好 的 内 存 管理 可 以 更 快 地 给 CPU 提供 
所 需 的 数据 。 但 是 ， 这 一 点 实际 取决 于 numpy 的 实现 ， 让 我 们 对 代码 进行 性 能 分 
析 来 验证 我 们 的 假设 。 例 6-10 显示 了 结 


例 6-10 numpy 2 阶 扩散 的 性 能 指标 
$ perf stat -e cycles, stalled-cycles-frontend, stalled-cycles-backend,instructions,\ 
cache-references ,cache-misses ,branches ,branch-misses,task-clock ,faults,\ 



































minor-faults,cs,migrations -r 3 python diffusion numpy.py 


Performance counter stats for "Python diffusion numpy.py' (3 runs): 
10,194,811,718 cycles # 3,.332 GHz 
4,435,850,419 stalled-cycles-frontend # 43.51% frontend cycles idqle 
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2,055,861,567 stalled-cycles-backend 20.17% packend cycles idle 

















15,165,151,844 instructions 1.49 insns per cycle 
0.29 stalled cycles Per insn 
346,798,311 cache-references 113.362 M/sec 
519,793 cache-misses 0.150 $$ of all cache refs 
3,506,887,927 pranches 1146.334 M/sec 
3,681,441 branch-misses 0.10% of all branches 
3059.219862 task-clock 0.999 CPUs utilized 
751,707 page-faults 0.246 M/sec 
751,707 minor-faults 0.246 M/sec 
8 context-switches 0.003 K/sec 
1 CPU-migrations 0.000 K/sec 





3.061883218 seconds time elapsed 


这 个 结果 显示 出 , 相 比 于 例 6-8 的 降低 内 存 分 配 的 纯 Python 实现 , 仅仅 改 用 numpy 
就 给 我 们 带 来 了 40 倍 的 速度 提升 。 这 是 怎么 做 到 的 ? 


首先 , 我 们 要 感谢 numpy 提供 的 矢量 操作 。 虽 然 numpy 版 本 看 上 去 每 个 周期 运行 
的 指令 较 少 , 但 是 每 条 指令 干 了 更 多 的 活 。 也 就 是 说 ,一 条 矢量 操作 指令 可 以 对 4 
个 (或 更 多 ) 数组 元 素 进行 乘法 操作 而 不 需要 4 条 独立 的 乘法 指令 。 最终 导致 我 们 
解决 同样 问题 的 指令 数 变 得 更 少 。 


numpy 版 本 的 函数 能 够 降低 指令 总 数 还 有 其 他 原因 。 其 中 之 一 是 纯 Python 版 本 需要 
完整 的 Python API 可 用 ， 而 numpy 版 本 则 没有 这 样 的 需求 一 一 比如 说 ， 纯 Python 
和 矩阵 只 能 在 Python 中 附加 ， 而 不 能 在 numpy 模块 内 被 附加 。 即 使 我 们 并 没有 显 式 
使 用 这 个 功能 〈 以 及 还 有 其 他 很 多 功能 ) ， 仅 仅 是 为 了 让 系统 确保 它 能 够 被 使 用 也 会 
带 来 额外 的 开销 。 由 于 numpy 可 以 假定 它 存储 的 数据 永远 是 数字 ， 所 有 跟 数 组 相关 
的 操作 都 可 以 针对 数字 操作 优化 。 等 我 们 讨论 Cython(7.6 节 ) 时 , 我们 会 为 了 性 能 
继续 移 除 各 种 必要 功能 ， 它 甚至 可 以 移 除 列表 边界 检查 来 加 速 整 个 列表 查询 。 


通常 , 指令 的 数量 跟 性 能 并 不 相关 一 一 拥有 较 少 指令 的 程序 可 能 并 没有 高 效 地 运行 

它们 , 或 者 它们 可 能 都 是 慢 速 指令 。 不过, 我 们 看 到 除了 降低 指令 数量 以 外 , numpy 
版 本 还 减少 了 很 多 低 效 之 处 : 缓存 失效 〈 仅 0.15%， 相 比 于 之 前 的 30.2%) 。 我 们 
在 6.3 节 中 解释 过 ， 由 于 CPU 必须 等 待 从 较 慢 的 内 存 中 读 取 数据 而 不 是 从 缓存 中 
直接 使 用 , 缓存 失效 降低 了 计算 速度 。 事 实 上 , 内 存 碎 片 是 如 此 决定 性 的 性 能 因素 ， 
以 至 于 在 numpy 中 禁用 矢量 操作 并 保持 其 他 一 切 不 变 的 情况 下 , 我 们 仍旧 能 看 到 
一 个 相对 纯 Python 版 本 极 大 的 速度 提升 ( 例 6-11)。 








































































































@ 为 此 我 们 以 -00 开关 编译 numpy。 为 了 这 个 实验 ,我 们 用 如 下 命令 编译 了 numpy1.8.0: 
$ OPT='-00' FOPT='-00' BLAS=None LAPACK=None ATLAS=None Python setup.py build, 
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例 6-11 


禁用 矢量 操作 的 numpy 2 阶 扩散 性 能 指标 


$ perf stat -e cycles,stalled-cycles-frontend, stalled-cycles-backend,instructions,\ 
cache-references ,cache-misses ,branches ,branch-misses,task-clock ,faults,\ 
minor-faults,cs,migrations -r 3 Python diffusion numpy.py 


Performance counter stats for 'python diffusion numpy.py'" 


48,923,515,604 
24,901,979,501 

6,585, 982,510 
53;208; 756;117 


83,436, 665 

1 721229 
4,428,225,111 
3;716,789 
14334.244888 
LOL 
7517185 

24 

5 


14.345794896 


这 个 结果 展示 出 : 当 我 们 使 用 numpy 的 时 候 , 给 我 们 带 来 40 倍速 度 提 升 的 决定 性 


因素 并 不 是 矢量 操作 指令 集 , 而 是 内 存 的 本 地 性 以 及 减少 的 内 存 碎 片 。 事实 上 ， 从 


cycles 
stalled-cycles-frontend 
stalled-cycles-backend 
instructions 


cache-references 
cache-misses 
branches 
branch-misses 
task-clock 
page-faults 


minor-faults 





context-switches 
CPU-migrations 


seconds time elapsed 





3.413 
50.90% 
13.46% 

;09 

0.47 
S82 
1.452 
85926 
0.08% 
0.999 
0.052 
0;.052 
0.002 
0.000 








(3 runs): 


GHz 

frontend cycles idle 
backend cycles idle 
insns per cycle 
stalled cycles per insn 
/sec 

$$ of all cache refs 
/sec 

of all branches 

CPUs utilized 

/sec 

/sec 

K/sec 

K/sec 











之 前 的 实验 上 我 们 可 以 看 到 ,矢量 操作 仅 给 我 们 带 来 了 40 倍速 度 提升 中 的 15%。” 


内 存 问 题 才 是 代码 效率 低下 的 决定 怕 








算 机 就 是 专门 被 设计 用 来 处 理 我 们 的 问题 的 


能 否 将 这 些 数 字 以 足够 快 的 速度 传输 给 CPU 让 


内 存 分 配 和 就 地 操作 
为 了 优化 内 存 方面 的 影响 ,让 我 
代码 的 内 存 分 配 次 数 。 内 存 分 
存 中 找 不 到 数据 时 去 RAM 中 找到 正确 的 数据 ， 内 存 分 


6.4.1 






































一 块 可 用 的 数据 








跟 另 一 个 进程 、 内 核 打 交道 来 完成 。 





为 了 移 除 例 6-9 中 的 内 存 分 配 , 我 们 会 在 代码 开头 预 分 




















Q@ 这 一 点 视 实际 使 








的 CPU 而 定 。 





因素 这 一 认 知 并 不 会 令 我 们 感到 太 过 震惊 。 计 
把 数字 相 乘 和 相 加 。 








瓶颈 就 取决 于 








它 能 够 以 最 高 的 速度 进行 计算 。 





门 试 着 使 用 跟 例 6-6 同样 的 方法 来 降低 我 们 numpy 
P 比 我 们 之 前 讨论 的 缓存 失效 更 糟 。 不 仅仅 要 在 组 



































还 必须 向 操作 系统 请 求 
保留 它 。 向 操作 系统 进行 请 求 所 需 的 开销 比 简单 填充 缓存 大 很 
多 一 一 填充 一 次 缓存 失效 是 一 个 在 主板 上 优化 过 的 硬件 行为 ， 而 内 存 分 














ct 则 需要 





























配 一 些 空间 然后 只 使 用 就 地 
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操作 。 就 地 操作 ， 比 如 +=、*= 等 ， 将 其 中 一 个 输入 重用 为 输出 。 这 意味 着 我 们 不 
需要 为 计算 的 结果 分 配 空间 。 


为 了 显 式 说 明 这 点 , 我 们 看 看 当 我 们 操作 一 个 numpy 数组 时 它 的 ia 如 何 改变 ( 例 
6-12)。id 是 一 个 很 好 的 追溯 numpy 数组 的 方式 , 因为 id 跟 指 向 的 内 存 区 域 有 关 。 
如 果 两 个 numpy 数组 具有 相同 的 id， 那 么 他 们 指向 同一 块 内 存 区 域 。” 


例 6-12 ”就 地 操作 减少 内 存 分 
>>> import numpy as np 

>>> arrayl = np.random.random( (10,10)) 
>>> array2 = np.random.random( (10,10)) 
>>> id(arrayl) 

140199765947424 @ 

>>> arrayl += array2 

>>> id(arrayl) 

140199765947424 #@ 

>>> arrayl = arrayl + array2 

>>> idl(arrayl) 

140199765969792 #®@ 


@@ 这 两 个 id 相同 , 因为 我 们 使 用 了 就 地 操作 。 这 意味 着 array1 的 内 存 地 址 没 
有 改变 ， 我 们 只 是 改变 了 其 内 部 的 数据 。 


@ 内 存 地 址 在 这 里 改变 了 。 在 计算 array1l + array2 时 ， 一 个 新 的 内 存 地 址 被 
分 配 并 填 入 计算 的 结果 。 不 过 这 样 做 也 有 好 人 处， 比如 当 原 始 数 据 需要 被 保留 时 ( 比 
如 ,，array3 = arrayl + array2 人 允许 你 继续 使 用 array1l 和 array2， 而 就 
地 操作 销毁 了 部 分 原始 数据 ) 。 


另外 ， 我 们 看 到 一 个 由 非 就 地 操作 带 来 的 期 望 中 的 性 能 损失 。 对 于 小 的 numpy 数 
组 , 这 一 开销 大 约 占 了 整个 计算 时 间 的 50%。 至 于 大 型 计算 , 速度 提升 大 概 在 几 个 
百分点 ， 但 如 果 发 生 几 百 万 次 ， 这 依然 代表 着 一 段 很 长 的 时 间 。 在 例 6-13 中 ,我 
们 看 到 对 小 数组 使 用 就 地 操作 给 我 们 带 来 了 20% 的 速度 提升 。 这 一 数字 会 随 着 数组 
长 度 增 加 而 变 得 更 多 ， 因 为 内 存 分 配 会 变 得 更 繁重 。 


例 6-13 使 用 就 地 操作 减少 内 存 分 配 
>>> %%timeit arrayl, array2 = np.random.random((10,10)), np.random.random( (10,10)) 
#@ 

. arrayl = arrayl + array2 
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Q@ 这 并 不 严格 为 真 ， 因 为 两 个 numpy 数组 可 以 指向 相 
据 做 出 不 同 的 表达 。 这 样 两 个 numpy 数组 会 具有 不 
在 本 书 讨 论 范围 之 外 。 





的 内 存 区 域 但 使 用 不 同 的 步 进 信 息 来 对 同样 的 数 
的 i9。Numpy 数组 的 id 结构 有 很 多 微妙 之 处 ， 
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100000 loops, 


best of 3: 


3.03 us per loop 


>>> %%timeit arrayl, array2 = np.random.random( (10,10)), np.random.random( (10,10)) 
. arrayl += array2 


100000 loops, 


best of 3: 


2.42 us per loop 





@ 注意 我 们 使 用 了 sstimeit 而 不 是 $timeit， 这 让 我 们 可 以 指定 用 于 设置 环境 


的 代码 免 于 时 间 测 量 





al 


o 





虽然 改写 我 们 例 6-9 中 的 代码 并 不 十 分 复杂 , 但 就 地 操作 的 坏处 在 于 它 确实 会 让 代 
码 有 一 点 难以 阅读 。 在 例 6-14 中 我 们 可 以 看 到 这 一 重 构 的 结果 。 我 们 初始 化 grid 





和 next_grid 和 矩阵 ， 








然后 重复 交换 两 者 。9rid 是 当前 系统 的 已 知 信息 ， 在 运行 


了 evolve 之 后 ，next_grid 包含 了 更 新 后 的 信息 。 
例 6-14 将 大 多 数 numpy 操作 改 为 就 地 操作 


def laplacian (grid, out): 
np.copyto (out, grid 
out *= -4 


out += np. 
out += np. 
out += np. 
out += np. 


roll (grid; 


roll 


( 
( 
roll( 
( 


roll (griqd, 


grid, 
grid, 


) 


1 
i 
~ 

Bs I 


def evolvel(grid, dt, out, D=1): 
laplacian(grid, out) 
out *= D * dt 
out += grid 


def run experiment (num iterations): 


next grid: = 


grid 


block_ 
block high 


low 


npP .zero 


= int(gri 
= int (gr 


s (grid shape) 


np.zeros (grid shape) 


d shape[l0] * .4) 
id shape[0] * .5) 


grid[block low:block high, block low:block high] = 0.005 


start 


= 七 ime .time () 

for i in range (num iterations) : 
evolve (grid, 0. 
grid, next grid 

return 七 ime .time () 


1, next grid) 
= next grid, grid# 各 
二 过 七 3 工 七 





@ 因为 evolve 的 输出 被 保存 在 输出 矩阵 next_grid， 我 们 必须 为 下 一 次 迭代 


交换 这 两 个 变 














量 来 让 grid 包含 最 新 的 信息 。 这 一 交换 操作 非常 便宜 ， 因 为 仅仅 互 


换 了 数据 的 引用 ， 而 不 是 数据 本 身 。 
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记 住 因为 我 们 想 要 让 每 个 操作 都 就 地 完成 , 所 以 每 一 个 矢量 操作 都 必须 在 同一 行 完 


成 。 这 可 以 让 一 名 简单 的 人 











= A * B + C 变 得 相当 费解 。 





因为 Python 非常 强调 


可 读 性 ， 所 以 我 们 必须 确保 这 些 改动 给 我 们 带 来 的 速度 提升 足以 弥补 这 一 点 。 


比较 例 6-15 和 例 6-10 的 性 能 指标 ， 我 们 看 到 移 除 不 需要 的 内 存 分 配给 我 们 的 代码 
带 来 了 29% 的 速度 提升 。 部 分 是 因为 降低 了 缓存 失效 , 但 主要 还 是 因为 降低 了 内 存 





缺 页 。 





例 6-15 ”numpy 就 地 操作 内 存 的 性 能 指标 
$ perf stat -e cycles,stalled-cycles-frontend, stalled-cycles-backend, instructions,\ 
cache-references ,cache-misses ,branches ,branch-misses,task-clock ,faults,\ 


minor-faults,cs,migrations -r 3 Python diffusion numpy memory.py 


Performance counter stats for 'python diffusion numpy memory.py' (3 runs): 





7,864,072,570 cycles 3..330 
3,055,151,931 stalled-cycles-frontend 38.85% 
1,368,235,506 stalled-cycles-backend 17.40% 
13,257,488,848 instructions 1.69 
0..23 

239,195,407 cache-references 101.291 
2,886,525 cache-misses 1.207 
3,166,506,861 branches 1340.903 
3,204,960 branch-misses 0.10% 
2361.473922 task-clock 0;993 
6,527 page-faults 0::003 

6,527 minor-faults 0.003 

6 context-switches 0.003 

2 CPU-migrations 0.001 








2.363727876 seconds time elapsed 


6.4.2 ”选择 优化 点 : 


找到 需要 被 修正 的 地 方 


GHz 

frontend cycles idle 
backend cycles idle 
insns per cycle 
stalled cycles per insn 
/sec 

$$ of all cache refs 
/sec 

of all branches 

CPUs utilized 

/sec 

/sec 

K/sec 

K/sec 








从 例 6-14 的 代码 中 , 似乎 可 以 看 到 我 们 解决 了 手头 大 部 分 的 问题 :我 们 使 用 numpy 


降低 了 CPU 负担 ， 我 们 降低 了 解决 问题 所 必要 的 内 存 分 
多 的 调查 等 待 着 我 们 。 如 果 我 们 对 代码 做 一 个 逐 行 怕 















































次 数 。 但 是 ， 永 远 有 更 
能 分 析 〈 例 6-16) ， 就 会 看 到 








我 们 大 部 分 的 工作 都 在 laplacian 也 数 中 完成 .事实 上 evolve 函数 有 93% 的 时 


间 花 费 在 laplacian 函数 中 。 





例 6-16， 逐 行 性 能 分 析 显 示 laplacian 花费 了 太 多 时 间 


Wrote profile results to diffusion numpy memory.py.1lprof 


Timer unit: le-06 s 
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File: diffusion numpy memory.py 
Function: laplacian at line 8 
Total time: 3.67347 s 














Line # Hits Time Per Hit % Time Line Contents 
8 @profile 
9 def laplacian (grid, out): 
10 500 162009 324.0 4.4 np.copyto (out, grid) 
11 500 111044 22201 3:0 out *= -4 
12 500 464810 929.6 .2.7 out += np.roll (grid, +1, 0) 
13 500 432518 865.0 于 out += np.roll (grid, -1, 0) 
14 500 1261692 252353 34:3 out += np.roll (grid, +1, 1) 
J 500 124139 2482.8 33'58 out += np.roll (grid, -1, 1) 
File: diffusion numpy memory.py 
Function: evolve at line 17 
Total time: 3.97768 s 
Line # Hits Time Per Hit % Time Line Contents 
17 @profile 
18 def evolve (grid, dt, out, D=1): 
J:9 500 3691674 7383.3 92.8 laplacian (grid, out) 
20 500 111687 223.4 2.8 Out X=D- dt 
21 500 174320 348.6 4.4 out += grid 


laplacian 函数 如 此 慢 的 原因 可 能 有 很 多 。 但 是 ， 这 里 我 们 主要 考虑 两 个 高 级 因 
素 。 首 先 ， 在 调用 np.roll 时 会 为 创建 新 的 矢量 分 配 内 存 (我 们 可 以 通过 查看 该 
函数 的 说 明文 档 来 验证 这 一 点 )。 这 意味 着 即使 我 们 在 之 前 的 重 构 中 移 除 了 7 处 内 
存 分 配 , 仍然 有 4 处 分 配 是 我 们 遗漏 的 。 男 外 ,np .roll 是 一 个 非常 通用 的 函数 ， 
有 很 多 代码 用 来 处 理 特殊 情况 。 既然 我 们 已 经 完全 清楚 我 们 需要 做 什么 ( 那 就 是 将 
每 个 维度 的 第 一 列 的 数据 移 到 最 后 一 列 )， 那 么 我 们 就 可 以 重 写 这 个 函数 来 消除 大 
部 分 无 用 的 代码 。 我们 甚至 可 以 将 np .roll 的 代码 逻辑 和 agd 操作 合并 , 生成 一 
个 高 度 专用 的 ro11_adq 函数 以 最 少 的 内 存 分 配 次 数 和 最 精简 的 逻辑 来 完成 我 们 
的 任务 。 


例 6-17 显示 了 这 个 重 构 的 细节 。 我 们 需要 的 仅 是 创建 新 的 rol1l1_adq 函数 并 让 
laplacian 使 用 它 。 因 为 numpy 支持 复杂 索引 (fancy indexing)， 实 现 这 样 
一 个 函数 只 需要 保证 不 搞 乱 索引 就 行 。 但 是 , 之 前 说 过 ,这 样 的 代码 性 能 虽 好 ， 可 
读 性 却 不 怎么 样 。 
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注意 我 们 除了 彻底 测试 之 外 ， 还 在 docstring 上 花费 了 额外 的 维护 工 
作 。 当 你 在 做 类 似 这 样 的 优化 时 ,维护 代码 的 可 读 性 是 非常 重要 的 ， 
这 些 步骤 是 为 了 确保 你 的 代码 以 你 期 望 的 方式 工作 ， 让 未 来 的 程序 
开发 者 能 够 维护 你 的 代码 并 在 出 问题 时 清楚 地 知道 你 的 代码 做 了 些 
什么 。 








mi 


例 6-17 创建 我 们 自己 的 轮转 函数 


import numpy as np 


def roll addl(rollee, shift, axis, out): 
wr 
Given a matrix, rollee, and an output matrix, out, this function will 
perform the calculation: 


>>> out += np.roll(rollee, shift, axis=axis) 


This is done with the following assumptions: 
* rollee is 2D 
* shift will only ever be +1 or -1 
* axiswill only ever be 0 or 1 (also impliedby the first assumption) 


Using these assumptions, we are able to speed up this function py avoiding 
extra machinery that numpy uses to generalize the ‘roll. function and also 
by making this operation intrinsically in-place. 


mnn 














if shift == 1 and axis == 
out[1:, :] += rollee[:-1, 
out[0 ，:] += zollee[-1， 
elif shift == -1 and axis == 
out[:-1, :] += zollee[1:， 
out[-1 ，:] += rollee[0, 
elif shift == 1 and axis == 
out[:, 1:] += rollee[:, :-1 
out[:, 0 ] += rollee[:, -1 
elif shift == -1 and axis == 
out[:, :-1] += rolleel[:, 1: 
out[:, -1] += rollee[:, 0 





def test roll add(): 
rollee = np.asarray ([[1,2],1[3,4]]) 
下 全 et 祠 类 主 下 万 “让 六 (二 Ly 本) 
for axis in (0, 1): 
out = np.asarray([[6,3],[9,2]]) 
xpected result = np.roll(rollee, shift, axis=axis) + Out 
roll addl(rollee, shift, axis, out) 
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assert np.all (expected result == out) 


def laplacian (grid, out): 
np.copyto (out, grid) 
out *= -4 


roll add (grid, +1, 0, out) 
roll add (grid, -1, 0, out) 
roll add(grid, +1, 1, out) 
roll add(grid, -1, 1, out) 


如 果 我 们 查看 例 6-18 中 本 次 重 写 后 的 性 能 指标 ， 我 们 会 发 现 虽 然 它 比例 6-14 有 一 
个 很 大 的 性 能 提升 (实际 上 提升 了 70%)， 但 是 大 多 数 性 能 指标 都 是 相同 的 。 
Page-faults 的 数量 下 降 了 , 但 是 下 降 了 不 到 70%。 同样，cache-misses 跟 
cache-references 也 下 降 了 ， 但 是 也 不 足以 导致 整体 这 么 大 的 性 能 提升 。 这 
里 最 重要 的 参数 是 instructions 指标 。Instructions 指标 记录 了 CPU 需 
要 执行 多 少 指令 来 完成 整个 程序 一 一 也 就 是 说 ，CPU 需要 干 多少 事 情 。 使 用 特 化 
的 roll_aqdd 函数 后 instructions 指标 降低 了 2.86 倍 。 这 是 因为 我 们 不 再 需 
要 依靠 numpy 提供 的 完整 功能 来 轮转 我 们 的 矩阵 , 而 是 利用 我 们 对 数据 的 了 解 (我 
们 的 数据 只 有 两 个 维度 且 只 需 轮 转 一 次 ) 创建 了 更 精简 的 功能 。 我 们 将 在 7.6 节 中 
继续 讨论 关于 在 numpy 和 Python 中 精简 不 需要 功能 的 主题 。 


例 6-18 numpy 使 用 就 地 内 存 操 作 和 特 化 laplacian 函数 的 性 能 指标 


$ perf stat -e cycles, stalled-cycles-frontend, stalled-cycles-backend, instructions,\ 
























































cache-references,cache-misses,branches,branch-misses,task-clock, faults,\ 
minor-faults,cs,migrations -r 3 python diffusion numpy memory2.py 


Performance counter stats for "Python diffusion numpy memory2.py' (3 runs): 








4,303,799,244 cycles 3.108 GHz 
2,814,678,053 stalled-cycles-frontend 65.40% frontend cycles idile 
1,635,172,736 stalled-cycles-backend 37.99% backend cycles idqle 
4,631,882,411 instructions 1.08 insns Per cycle 
0.61 stalled cycles per insn 
272,151,957 cache-references 196.563 M/sec 
2,835,948 cache-misses 1.042 $ of all cache refs 
621,565,054 branches 448.928 M/sec 
2,905,879 branch-misses 0.47% of all branches 
1384.555494 task-clock 0.999 CPUs utilized 
5,559 page-faults 0.004 M/sec 
5,559 minor-faults 0.004 M/sec 
6 context-switches 0.004 K/sec 
3 CPU-migrations 0.002 K/sec 











1.386148918 seconds time elapsed 
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6.5 numexpr: 让 就 地 操作 更 快 更 简单 


numpy 对 矢量 操作 优化 的 一 个 缺陷 是 它 一 次 只 能 处 理 一 个 操作 。 这 意味 着 ， 当 我 
们 对 numpy 矢量 进行 A * B + C 这 样 的 操作 时 ， 首 先 要 等 待 A * B 操作 完成 ， 
数据 保存 在 一 个 临时 矢量 中 ， 然 后 将 这 个 新 的 矢量 和 C 相 加 。 正 如 例 6-14 中 使 用 
就 地 操作 的 扩散 代码 所 示 。 


然而 ， 有 许多 模块 可 以 对 这 点 进行 优化 。numexpr 模块 可 以 将 整个 矢量 表达 式 
编译 成 非常 高 效 的 代码 ,可 以 将 缓存 失效 以 及 临时 变量 的 数量 最 小 化 。 男 外 , 它 还 
能 利用 多 个 CPU 核心 (更 多 信息 见 第 9 章 ) 以 及 Intel 心 片 专用 的 指令 集 来 将 速度 
最 大 化 。 


很 容易 修改 代码 来 使 用 numexPz: 我 们 只 需要 将 表达 式 重 写 为 使 用 本 地 变量 的 字 
符 串 即 可 。 表 达 式 会 在 后 台 被 编译 成 优化 过 的 代码 〈 并 被 缓存 来 确保 相同 的 表达 式 
不 会 导致 同样 的 编译 过 程 发 生 多 次 ) 并 运行 。 例 6-19 显示 了 evolve 函数 改 用 
numexpr 是 多 么 的 简单 。 我 们 在 evaluate 函数 中 使 用 out 参数 ， 这 样 numexpr 
就 不 会 为 返回 一 个 新 矢量 而 分 配 内 存 。 


例 6-19 ”使 用 numexpr 来 进一步 优化 大 和 矩阵 操作 


from numexpr :import evaluate 





















































def evolvel(grid, dt, next grid, D=1): 
laplacian (grid, next grid) 
evaluate ("next grid*D*dt+grid", out=next grid) 


numexpr 的 一 个 重要 特点 是 它 考 虑 到 了 CPU 缓存 。 它 特地 移动 数据 来 让 各 级 
CPU 缓存 能 够 拥有 正确 的 数据 让 缓存 失效 最 小 化 。 当 我 们 对 更 新 后 的 代码 运行 
perf ( 例 6-20) 时 ， 我们 看 到 速度 的 确 是 提升 了 。 但 是 ， 如 果 我 们 针对 一 个 较 小 
的 512 x 512 的 和 矩阵 ( 见 本 章 最 后 的 图 6-4) 比较 速度 ， 我 们 会 看 到 大 约 15% 的 速 
度 下 降 。 这 是 为 什么 ? 


例 6-20 使 用 了 numpy 就 地 内 存 操 作 特 化 laplacian 函数 以 及 numexpr 的 性 能 指标 
$ perf stat -e cycles, stalled-cycles-frontend, stalled-cycles-backend, instructions, \ 
cache-references,cache-misses,branches,branch-misses,task-clock, faults,\ 
minor-faults,cs,migrations -r 3 python diffusion numpy memory2 numexpr.py 























Performance counter stats for 'Python diffusion numpy memory2 numexpr.py' (3 runs): 


5,940,414,581 cycles # 1.447 GHz 
3,706,635,857 stalled-cycles-frontend # 62.40% frontend cycles idle 
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2,321,606,960 stalled-cycles-backend 39.08%$ backend cycles idle 


6,909,546,082 instructions 1.16 insns per cycle 
0.54 stalled cycles per insn 
261,136,786 cache-references 63.628 M/sec 
11,623,783 cache-misses 4.451 %$ of all cache refs 
627,319,686 branches 152.851 M/sec 
8,443,876 branch-misses 1.35% of all branches 


4104.127507 task-clock 1.364 CPUs utilized 
9,786 page-faults 0.002 M/sec 
9,786 minor-faults 0.002 M/sec 
0 
0 











8,701 context-switches .002 M/sec 
60 CPU-migrations .015 K/sec 








3.009811418 seconds time elapsed 
numexpr 引入 的 大 多 数额 外 的 机 制 都 跟 缓存 相关 。 当 我 们 的 矩阵 较 小 且 计 算 所 需 
的 所 有 数据 都 能 被 放 人 缓存 时 , 这 些 额 外 的 机 制 只 是 白白 增加 了 更 多 的 指令 而 不 能 
对 性 能 有 所 帮助 。 另 外 , 将 字符 串 编 译 成 矢量 操作 也 会 有 很 大 的 开销 。 当 程序 运行 
的 整体 时 间 较 少时 ， 这 个 开销 就 会 变 得 相当 引 人 注 意 。 不 过 ， 当 我 们 增加 矩阵 的 大 
小 时 ， 我 们 会 发 现 numexpr 比 原生 numpy 更 好 地 利用 了 我 们 的 缓存 。 而 且 ， 
numexpr 利用 了 多 核 来 进行 计算 并 尝试 填 满 每 个 核心 的 缓存 。 当 矩阵 较 小 时 ， 管 
理 多 核 的 开销 盖 过 了 任何 可 能 的 性 能 提升 。 


我 们 用 来 跑 测试 的 电脑 有 20480 KB 的 缓存 (Intel Xeon E5-2680 ) 。 因 为 有 两 个 数组 
需要 处 理 ， 一 个 作为 输入 ， 另 一 个 作为 输出 ， 所 以 我 们 可 以 轻易 计算 出 需要 足以 填 
满 缓存 的 矩阵 大 小 。 和 矩阵 元 素 的 总 数 是 20480 KB/64 bit = 2560000。 因 为 我 们 有 两 
个 和 矩阵， 这 一 总 数 被 平分 到 两 个 对 象 中 〈 所 以 每 个 对 象 最 多 可 以 有 2560000 / 2 = 
1280000 个 元 素 )。 最 后 ， 对 这 个 数字 求 平方 根 可 以 让 我 们 知道 能 存放 这 么 多 元 素 
的 矩阵 的 大 小 。 总 的 来 说 ， 这 意味 着 大 概 两 个 大 小 为 1131 的 2 维 数组 就 会 填 满 组 
存 (V20480KB/64bit/2 =1131 )。 但 实际 上 , 我们 自己 没 办 法 完全 填 满 缓存 (其 他 
程序 会 占用 部 分 缓存 ) ， 所 以 现实 来 说 大 概 能 填 人 两 个 800 x 800 的 数组 。 见 表 6-1 
和 表 6-2, 我 们 可 以 看 到 当 和 矩阵 大 小 从 512 x 512 跳 到 1024 x 1024 时 , numexpr 代 
码 的 性 能 就 开始 超越 纯 numpy。 


6.6 ”告诫 故事 :验证 你 的 “优化 ”(scipy) 


重要 的 是 记 住 我 们 在 本 章 中 对 每 一 次 优化 使 用 的 一 套 方法 : 首先 对 代码 进行 性 能 
析 来 感知 问题 可 能 出 在 哪 , 提出 一 个 可 能 的 解决 方案 来 修改 慢 的 那 部 分 , 然后 再 次 
进行 性 能 分 析 来 确保 我 们 的 修改 可 行 。 虽然 这 听 上 去 十 分 简单 直接 , 但 事情 很 快 会 
变 得 复杂 ， 比 如 我 们 看 到 numexpr 的 性 能 是 如 何 受 到 矩阵 大 小 影响 的 。 
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当然 我 们 提出 的 方案 并 不 总 是 可 行 。 在 为 本 章 写 代码 时 ， 有 一 次 作者 看 到 laplacian 
函数 最 慢 并 假设 scipy 的 函数 会 明显 更 快 。 这 一 想法 来 自 于 一 个 事实 ， 那 就 是 
laplacian 在 图 像 分 析 这 一 行 是 一 个 常见 操作 , 可 能 已 经 有 一 个 非常 优化 的 库 
加 速 了 其 运行 的 速度 。scipy 正好 有 一 个 图 像 子 模块 ， 我 们 一 定 会 得 到 幸运 的 
眷顾 ! 


用 scipy 实现 起 来 很 简单 ( 例 6-21) 且 不 需要 考虑 实现 周期 边界 的 复杂 度 (因为 
scipy 的 wrap 模式 会 帮 我 们 搞定 )。 


例 6-21 使 用 scipy 的 laplace 滤波 


from scipy.ndimage.filters import laplace 















































def laplacian (grid, out): 
laplace (grid, out, mode='wrap') 


能 够 简单 实现 这 一 点 相当 重要 ， 且 绝对 为 这 个 函数 赢得 了 一 些 分 数 , 在 我 们 考查 性 
能 之 前 。 然 而 一 旦 我 们 对 scipy 代码 进行 性 能 对 比 〈 例 6-22), 我 们 才 发 觉 这 个 
函数 跟 之 前 的 相 比 〈 例 6-14) 并 没有 带 来 大 量 的 速度 提升 。 事 实 上 ， 当 我 们 增加 甜 
阵 大 小 时 ， 这 个 函数 甚至 开始 变 得 性 能 下 降 了 ( 见 本 章 最 后 的 图 6-4)。 


例 6-22 使 用 scipy 的 laplacian 函数 的 扩散 代码 性 能 指标 
y 
$ perf stat -e cycles, stalled-cycles-frontend, stalled-cycles-backend, instructions, \ 
cache-references ,cache-misses ,branches ,branch-misses,task-clock ,faults,\ 











mp 








i 





ul 

















minor-faults,cs,migrations -r 3 python diffusion scipy.py 


Performance counter stats for 'python diffusion scipy.py' (3 runs): 








6,573,168,470 cycles 2.929 GHz 
3,574,258,872 stalled-cycles-frontend 54.38% frontend cycles idle 
2,357,614,687 stalled-cycles-backend 35.87% backend cycles idqle 
9,850,025,585 instructions 1.50 insns Pet Cycle 
0.36 stalled cycles per insn 
415,930,123 cache-references 185.361 M/sec 
3,188,390 cache-misses O0107 S060f. .aLL-.cache refs 
1,608,887,891 pranches 717.006 M/sec 
4,017,205 branch-misses 0.25% of all branches 
2243.897843 task-clock 0.994 CPUs utilized 
7,319 page-faults 0.003 M/sec 
7,319 minor-faults 0.003 M/sec 
12 context-switche 0.005 K/sec 
1 CPU-migrations 0.000 K/sec 











2.258396667 seconds time elapsed 
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对 比 scipy 版 本 和 我 们 自己 的 laplacian 函数 性 能 指标 ( 例 6-18), 我 们 可 以 得 到 
一 些 提示 ， 为 什么 没有 从 这 次 重 写 中 得 到 期 待 的 性 能 提升 。 


指标 中 最 突出 的 是 page-faults 和 instructions。scipy 版 本 的 指标 中 两 者 





的 值 都 明显 更 大 。 


就 地 操作 ， 但 它 
数 比 我 们 第 一 次 















































page-faults 的 增加 显示 出 scipy 的 1aplace 函数 虽然 文 持 
依然 分 配 了 很 多 内 存 。 事 实 上 scipy 版 本 的 page-faults 的 次 
用 numpy 重 写 的 版 本 还 要 多 ( 例 6-15)。 











但 更 严重 的 还 是 instructions 指标 。 它 告诉 我 们 scipy 代码 比 我 们 的 


laplacian 函数 让 CPU 多 做 了 超过 两 倍 的 工作 。 即 使 这 些 指令 都 是 更 加 优化 的 
(因为 我 们 可 以 看 到 更 高 的 insns per cycle 计数 ， 也 就 是 CPU 在 一 个 时 钟 周 





期 内 能 完成 多 少 条 指令 ) ， 额 外 的 优化 并 没有 能 胜 过 指令 数 的 猛 增 。 这 可 能 部 分 是 









































因为 scipy 代码 写 得 非常 通用 , 以 使 它 可 以 处 理 具 有 不 同 边界 条 件 的 各 种 输入 (所 
以 需要 额外 的 代码 也 就 是 更 多 的 指令 数 )。 事 实 上 这 一 点 我 们 也 可 以 通过 scipy 代 


码 拥有 更 多 的 branches 指标 看 出 。 








6.7 ”小结 














回顾 我 们 的 优化 历程 , 看 起 来 我 们 使 用 了 两 种 方法 : 减少 CPU 获得 数据 的 时 间 和 
减少 CPU 需要 干 的 工作 。 表 6-1 和 表 6-2 在 不 同 的 矩阵 大 小 上 显示 了 我 们 在 原始 
的 纯 Python 实现 之 上 进行 的 各 种 优化 努力 后 的 结果 对 比 。 


图 6-4 显示 了 这 些 优化 手段 之 间 的 比较 。 我 们 可 以 看 到 两 种 优化 手段 的 三 个 基带 : 


















































底部 的 基带 显示 














了 我 们 纯 Python 实现 在 进行 了 降低 内 存 分 配 次 数 之 后 的 小 小 提升 ， 












































中 间 的 基带 显示 了 我 们 使 用 numpy 并 进一步 减少 内 存 分 配 后 发 生 了 什么 ， 最 上 面 

































































的 基带 则 显示 了 减少 进程 总 体 工 作 量 的 结果 。 
表 6-1 各 种 优化 ， 各 种 和 矩阵 大 小 ， 运 行 500 次 evolve 函数 的 总 时 间 

Method 256 x256 | 512x512 | 1024x1024 | 2048x2048 | 4096x4096 
Python 2.32s 9.49s 39.00s 155.02s 617.35s 
Python + memory 2.50s 10.26s 40.87s 162.88s 650.26s 
numpy 0.07s 0.28s 1.6ls 11.28s 45.47s 
numpy + memory 0.05s 0.22s 1.05s 6.95s 28.14s 
numpy + memory 0.03s 0.12s 0.53s 2.68s 10.57s 
+ laplacian 
numpy + memory 0.04s 0.13s 0.50s 2.42s 9.54s 
+ laplacian + numexpr 
numpy + memory + scipy 0.03S 0.19s 1.22s 6.06s 30.31s 
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表 6-2 各 种 优化 ， 各 种 矩阵 大 小 ， 运 行 500 次 evolve 函数 相 比 原生 Python 
( 例 6-3) 的 速度 提升 倍数 
Method 256 x 256 | 512x512 | 1024x1024 | 2048x2048 | 4096 x4096 
Python 0.00x 0.00x 0.00x 0.00x 0.00x 
Python + memory 0.90x 0.93x 0.95x 0.95x 0.95x 
numpy 32.33x 33.56x 24.25x 13.74x 13.58x 
numpy + memory 42.03X 42.73X 37.13X 22.30x 21.94x 
numpy + memory 77.98X 78.91x 73.90x S57.90x 58.43x 
+ laplacian 
numpy + memory 65.01x 74.27x 78.27x 64.18x 64.75x 
laplacian +numexpr 
numpy + memory + scipy 42.43X 51.28x 32.09x 25.58x 20.37x 
我 们 从 中 学 到 的 一 个 重要 的 教训 是 你 应 该 总 是 将 代码 需要 的 任何 管理 性 工作 放 在 
































初始 化 阶段 进行 。 这 可 能 包括 内 存 分 配 , 读 取 配 置 文 件 ,预先 计算 程序 所 需 的 一 些 


数据 等 。 原因 有 两 点 。 首 先 在 初始 化 阶段 一 次 性 搞定 可 以 让 你 减少 这 上 上 
总 次 数 ， 并 让 你 知道 你 可 以 在 将 来 不 需要 付 














的 程序 不 会 





存 始终 含有 相关 数据 。 








我 们 同时 
高 。CPU 


化 内 存 的 使 用 方法 ,那么 结果 会 





能 理解 图 
生变 化 的 原 


6-4 中 的 每 一 种 优化 寻 
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决 冯 诺 依 曼 } 








FE 
TX 


因 是 我 们 的 矩阵 已 经 填 满 了 L3 缓存 。 建 立 内 存 分 级 




















些 工 作 运 行 的 
什么 代价 就 使 用 这 些 资 源 。 其 次 ， 你 
因为 要 转 而 去 做 这 些 工作 而 打扰 了 流程 , 这 可 以 让 流水 线 更 有 效 并 让 组 











还 学 到 了 数据 的 本 地 性 以 及 将 数据 传 给 CPU 这 一 简单 操作 的 重要 性 有 多 
的 缓存 可 以 相当 复杂 ， 所 以 大 多 数 时 候 我 们 都 会 让 各 种 优化 过 的 专用 函 


数 来 处 理 它 。 但 是 , 只 要 我 们 理解 背后 发 生 的 故事 并 且 用 尽 了 各 种 可 能 的 方法 去 优 





大 不 一 样 。 比 如 ,理解 了 缓存 的 工作 方式 ,我 们 就 


在 矩阵 大 到 一 定 程度 之 后 性 能 提升 程度 就 不 再 发 




















入 颈 ， 但 是 当 这 种 情况 发 和 


另 一 个 重要 的 收获 是 考虑 使 用 各 种 外 间 





读 性 语言 , 让 你 能 够 快速 地 编写 和 调试 代码 。 
必要 的 。 这 些 外 部 库 可 以 超级 快 , 因为 它们 都 是 用 各 种 低级 语言 写 的 一 一 但 是 因为 





它们 提供 了 Python 接口 ， 你 依然 可 以 迅速 写 H 





最 后 , 我 们 学 到 了 运行 性 能 测试 


设 ， 我 们 就 能 让 结果 告诉 我 


间 ? 是 否 减 


























少 了 内 存 分 





和 对 结果 做 


























假设 的 


要 局 


使 用 它们 的 代码 。 


E。 在 测试 之 前 先进 行 假 

















症 度 本 来 是 为 了 解 
E 时 ， 它 反而 成 为 了 我 们 的 制约 。 

了 库 。Python 本身 是 一 门 非常 容易 使 用 的 高 可 
晶 是 使 用 外 部 库 对 于 优化 性 能 来 说 是 





门 优化 是 否 真 的 成 功 了 。 这 个 改动 是 否 能 加 速 运 行 时 
a? 是 否 降 低 了 缓存 失效 的 数量 ? 现代 计算 机 系统 的 复杂 


性 让 优化 变 成 了 一 门 艺术 ， 而 能 对 性 能 指标 进行 定量 分 析 则 是 一 个 很 大 的 帮助 。 
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代码 性 能 总 结 
90 


人 numpy+memory+1aplace+numepr = se numpy+memory+scipy Dre NUMDY 
iw python+memory a 


alinin pb numpy+memoryt+laplace NI numpy+memory 


相对 纯 Python 版 本 的 速度 提升 ( 越 大 越 好 ) 





256X256 512X 512 1024 X 1024 2048 X 2048 4096 X 4096 











图 6-4 ”本 章 各 种 优化 方法 带 来 的 速度 提升 总 结 

















优化 的 最 后 一 点 是 必须 花 很 大 精力 确保 优化 在 各 种 计算 机 上 都 是 通用 的 (你 的 假设 
以 及 测试 结果 可 能 跟 和 运行 程序 的 计算 机 架构 以 及 模块 编译 方式 等 相关 )。 另 外 ,在 
进行 这 些 优化 时 还 必须 考虑 到 其 他 开发 者 , 你 的 改动 会 多 大 程度 上 影响 代码 的 可 读 
性 。 比 如 ， 我 们 意识 到 例 6-17 中 实现 的 解决 方案 具有 一 定 的 模糊 性 ， 所 以 特地 确 
保 代 码 具 有 完备 的 描述 文档 和 测试 来 帮助 我 们 以 及 团队 中 的 其 他 成 员 。 


下 一 章 , 我 们 会 谈 到 如 何 创建 你 自己 的 外 部 模块 来 更 高 效 地 解决 特定 的 问题 。 这 让 
我 们 能 够 用 快速 原型 的 方式 来 写 程序 一 一 首先 用 较 慢 的 代码 解决 问题 , 然后 找到 导 
致 慢 的 原因 ,最 终 让 它们 快 起 来 。 经 常 进行 性 能 分 析 来 找到 并 优化 我 们 的 慢 速 代码 
段 ， 就 能 让 自己 的 程序 运行 尽 可 能 快 的 同时 还 省 了 自己 的 时 间 。 
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第 7 章 





读 完 本 章 之 


编译 成 C 


后 你 将 能 够 回答 下 列 问题 


。 ”我 走样 让 我 的 Python 代码 作为 低级 代码 来 运行 ? 





。 JIT 编译 器 和 AOT 编译 器 的 区 别 是 什么 ? 

。 ”编译 后 的 Python 代码 运行 什么 任务 能 够 比 本 地 Python 快 ? 

。 ”为 什么 类 型 注解 提升 了 编译 后 Python 代码 的 运行 速度 ? 

。 ”我 该 怎样 使 用 C 或 Fortran 为 Python 编写 模块 ? 

。 我 该 怎样 在 Python 中 使 用 C 或 者 Fortran 的 库 ? 

让 你 的 代码 运行 更 快 的 最 简单 的 办 法 就 是 让 它 做 更 少 的 工作 。 设 想 你 已 经 选择 了 优 

















秀 的 算法 并 ] 














昌 已 经 减少 了 要 处 理 的 数据 量 , 要 执行 更 少 指令 的 最 简单 的 方法 就 是 把 


你 的 代码 编译 成 机 器 码 。 
Python 为 此 提供 了 许多 选项 ,包括 纯粹 的 基于 C 的 编译 方式 ,比如 Cython .Shed Skin 


和 Pythran ， 








凭借 Numba 的 基于 LLVM 的 编译 方式 ， 还 有 蔡 代 虚 拟 机 的 PyPy， 包 











含 了 一 个 内 置 的 即时 编译 器 (JIT)。 当 决定 采用 哪 条 路 线 时 ， 你 需要 在 代码 的 可 适 
用 性 和 团队 效率 的 要 求 方面 做 出 权衡 。 


这 些 工具 中 的 每 一 种 都 给 你 的 工具 链 增加 了 新 的 依赖 性 ， 并 且 Cython 会 额外 要 求 
































你 用 一 种 新 的 语言 类 型 来 编写 (一 种 Python 和 C 的 混合 ), 这 就 意味 着 你 需要 新 的 
技能 。Cython 的 新 语言 可 能 会 伤害 你 的 团队 效率 ， 因 为 没有 C 语言 知识 的 团队 成 
员 在 支持 这 种 代码 方面 可 能 会 有 麻烦 , 尽管 在 实践 中 , 这 很 可 能 只 是 一 个 小 小 的 顾 
虑 ， 因 为 你 只 会 在 代码 中 精心 选择 的 小 部 分 区 域 使 用 Cython。 
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值得 注意 的 是 对 你 的 代码 执行 CPU 和 内 存 剖 析 有 可 能 会 促 发 你 去 思考 可 以 采用 的 
高 层 算法 优化 。 这些 算法 的 变动 (例如 ,用 额外 的 逻辑 来 避免 计算 或 者 用 缓存 来 避 
免 重新 计算 ) 会 帮助 你 避免 在 代码 中 做 无 用 功 ， 并 且 Python 的 表达 力 会 帮助 你 获 
得 发 现 这 些 算 法 的 机 会 。Radim Rehtiek 在 12.2 节 中 讨论 了 Python 的 实现 怎样 能 
够 胜出 纯 C 的 实现 。 


在 本 章 中 ， 我 们 会 检视 : 


。 Cython 一 这 是 编译 成 C 最 通用 的 工具 ,覆盖 了 numpy 和 普通 的 Python 代码 
(需要 一 些 C 语言 的 知识 )。 

























































































。 Shed Skin 一 个 用 于 非 numpy 代码 的 , 自动 把 Python 转换 成 C 的 转换 器 。 

。 Numba 一 个 专用 于 numpy 代码 的 新 编译 器 。 

。 Pythran 一 个 用 于 numpy 和 非 numpy 代码 的 新 编译 器 。 

。 PyPy 一 一 一 个 用 于 非 numpy 代码 的 ， 取 代 常 规 Python 可 执行 程序 的 稳定 的 
即时 编译 器 。 











接 下 来 在 本 章 中 ， 我 们 会 查看 外 来 接口 ， 这 些 接口 允许 C 代码 被 编译 进 Python 的 
扩展 模块 。Python 的 本 地 API 和 ctypes、cffi (来 自 PyPy 的 作者 ), 以 及 £2py 
这 种 能 把 Fortran 转 为 Python 的 转换 器 一 起 使 用 。 


7.1 可 能 获得 哪 种 类 型 的 速度 提升 


如 果 你 的 问题 求助 于 编译 方式 ， 那 么 很 有 可 能 得 到 至 少 一 个 数量 级 大 小 的 速度 提 
升 。 这 里 , 我 们 会 看 到 在 单 核 上 ， 以 及 在 使 用 OpenMP 的 多 核 上 ， 有 各 种 各 样 的 方 
法 来 达成 一 到 两 个 数量 级 大 小 的 提速 。 在 编译 后 趋 于 更 快运 行 的 Python 代码 有 可 
能 是 数学 方面 的 ， 并 且 可 能 有 许多 循环 在 重复 着 多 次 相同 的 运算 。 在 这 些 循环 中 ， 
有 可 能 会 生成 许多 临时 对 象 。 


调用 外 部 库 〈 例 如 ， 正 则 表达 式 、 字 符 串 操作 、 调 用 数据 库 ) 的 代码 在 编译 后 不 可 
能 表现 出 任何 速度 提升 。VO 密集 型 的 程序 同样 不 可 能 表现 出 明显 的 速度 提升 。 


类 似 地 ， 如 果 你 的 Python 代码 集中 于 调用 向 量化 的 numpy 例 程 ， 那么 在 编译 后 就 
不 大 可 能 运行 得 更 快 一 一 只 有 当 被 编译 的 代码 主要 是 Python (并 且 可 能 主要 是 循 
环 ) 时 才 会 运行 得 更 快 。 我 们 在 第 6 章 会 看 到 numpy 和 运算， 编译 不 会 真正 有 助 于 
提速 ， 因 为 没有 许多 中 间 对 象 。 
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总 体 而 言 ， 编 译 后 的 代码 不 可 能 比 手 工 精心 编写 的 C 例 程 运行 得 更 快 ， 但 也 不 可 
能 比 它 慢 很 多 。 从 你 的 Python 代码 生成 的 C 代码 很 有 可 能 和 手写 的 C 例 程 跑 得 一 
样 决 ， 除 非 C 程序 员 掌握 了 特定 的 知识 和 方法 在 目标 机 器 架构 上 去 调制 C 代码 。 


对 于 集中 于 数学 方面 的 代码 来 说 ， 一 个 手写 的 Fortran 例 程 有 可 能 会 超越 等 价 的 C 
例 程 ， 但 是 这 也 有 可 能 需要 具备 专家 级 别 的 知识 水 准 。 总 体 而 言 ， 一 个 编译 后 的 结 
果 (可 能 使 用 了 Cython、Pythran 或 Shed Skin) 将 会 如 大 多 数 程序 员 所 需要 的 那样 
接近 于 手写 C 的 结 


当 你 前 析 和 工作 于 你 的 算法 时 ， 请 把 图 7-1 记 在 脑 中 。 通 过 少量 剖析 去 理解 你 的 代 
码 的 工作 应 该 能 够 让 你 在 算法 层面 做 出 更 明智 的 选择 。 在 这 之 后 , 致力 于 编译 器 使 
用 上 的 一 些 工 作 应 该 让 你 获得 额外 的 速度 提升 。 你 还 可 能 会 一 直 微 调 你 的 算法 , 但 
是 不 要 惊讶 于 见 到 你 那 部 分 不 断 增加 的 工作 量 只 是 换 来 了 越 来 越 小 的 改进 。 要 知道 
多 余 的 努力 可 能 是 无 效 的 。 































































































快速 取胜 和 回报 减弱 









意识 到 工作 量 增 大 而 回报 减弱 


使 用 编译 器 来 快速 取胜 


有 依据 地 改进 算法 


剖析 来 理解 程序 行为 


工作 量 
图 7-1 一 些 花 在 剖析 和 编译 上 的 工作 会 带 来 丰厚 回报 ， 但 是 继续 努力 ， 收 益 就 趋向 于 不 断 减少 











如 果 你 正在 处 理 Python 代码 和 内 置 的 库 , 不 涉及 numpy, 那么 Cython、Shed Skin 
和 PyPy 是 你 的 主要 选择 。 如 果 你 正在 用 numpy 工作 ， 那 么 Cython、Numba 和 
Pythran 是 正确 的 选择 。 这 些 工 具 都 支持 Python2.7， 一 些 支 持 Python3.2+。 
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下 面 一 些 例子 仅 需 要 懂 一 点 C 编译 器 和 C 代码 。 如 果 你 缺乏 这 方面 知识 ， 你 应 该 
在 深入 探索 之 前 学 习 一 点 C 语言 和 编译 一 个 可 以 工作 的 C 程序 。 


7.2 JIT 和 AOT 编译 器 的 对 比 


我 们 将 要 查看 的 工具 大 体 分 为 两 类 : 提前 编译 工具 (Cython、Shed Skin、Pythran ) 
和 “即时 ”编译 工具 (Numba、PyPy) 。 


通过 提前 编译 (AOT) ， 你 会 创建 一 个 为 你 的 机 器 定制 的 静态 库 。 如 果 你 下 载 了 
numpy、scipy 或 scikit-learn， 它 就 会 在 你 的 机 器 上 用 Cython 编译 部 分 的 
库 (或 者 如 果 你 正在 使 用 像 Continuum's Anaconda 之 类 的 分 发 包 ， 你 就 会 使 用 一 个 
事先 构建 的 预 编 译 库 ) 。 通 过 在 使 用 之 前 编译 的 方式 ， 你 就 会 获得 一 个 能 够 在 工作 
中 立即 拿 来 使 用 来 解决 你 的 问题 的 库 。 


通过 即时 编译 ， 你 不 必 提 前 做 很 多 〈 如 果 有 的 话 ) ， 你 让 编译 器 在 使 用 时 只 逐步 编 
译 恰到好处 的 那 部 分 代码 。 这 就 意味 着 你 会 有 “ 冷 启动 ”问题 一 一 如 果 你 的 大 部 分 
代码 能 够 被 编译 并 且 当前 都 还 没有 被 编译 过 ， 当 你 开始 运行 代码 而 且 正 在 被 编译 
时 ， 就 会 跑 得 很 慢 。 如 果 这 事 在 你 每 次 运行 脚本 时 都 发 生 ， 并 且 你 运行 这 脚本 很 多 
次 ， 开 销 就 会 变 得 很 显著 。PyPy 会 遭受 这 个 问题 ， 所 以 你 可 能 不 想 要 用 它 来 处 理 
短小 且 频 繁 运行 的 脚本 。 


当前 情形 向 我 们 展示 了 提前 编译 可 以 给 我 们 带 来 最 快 的 速度 提升 , 但 这 经 常会 需要 
大 量 的 人 力 。 即 时 编译 提供 了 印象 深刻 的 速度 提升 而 且 几 乎 不 需要 人 工 干预 , 但 是 
它 也 会 遇 到 刚才 描述 到 的 问题 。 当 为 你 的 问题 选择 正确 的 技术 时 , 你 不 得 不 思考 这 
些 权 衡 问题 。 


7.3 为 什么 类 型 检查 有 助 代码 更 快运 行 

Python 是 动态 类 型 的 一 一 个 变量 能 够 引用 任何 类 型 的 对 象 ,并且 任意 代码 行 都 能 
够 改变 被 引用 对 象 的 类 型 。 这 使 得 虚拟 机 难以 在 机 器 码 层 面 优化 代码 的 运行 方式 ， 
因为 它 不 知道 哪 种 基础 数据 类 型 会 用 于 将 来 的 运算 。 让 代码 保持 泛 型 就 会 让 代码 运 
行 更 慢 。 

在 下 面 的 例子 中 ，v 或 是 一 个 浮 点 数 ， 或 是 一 对 代表 复数 的 浮 点 数 。 两 个 条 件 会 先 
后 在 相同 循环 的 不 同位 置 发 生 ， 或 者 在 相关 代码 的 品行 区 域 发 生 ， 


V = -1.0 
print type(v), abs(v) 
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<type 'float'> 1.0 


YY 渤 = 
print type(v), abs(v) 


<type 'complex'> 1.41421356237 
abs 函数 会 根据 底层 数据 类 型 来 以 不 同方 式 工作 。 对 一 个 整数 或 浮 点 数 来 说 ，abs 
只 是 简单 地 把 负 值 转换 为 正 值 来 作为 结果 。 对 复数 来 说 , abs 涉及 对 分 量 的 平方 和 
开平 方 根 : 




















abs(c) = Vereaf’ + Cimag’ 








还 是 复数 的 例子 , 它 的 机 器 码 涉及 更 多 的 指令 并 且 会 运行 得 更 久 。 在 对 一 个 变量 调 
用 abs 之 前 ，Python 首先 不 得 不 查看 变量 的 类 型 ， 接 着 决定 调用 哪个 函数 版 本 一 
一 当 你 做 出 很 多 重复 调用 的 时 候 ， 这 个 开销 会 累积 。 


在 Python 的 每 种 基础 对 象 内 部 ， 就 像 integer 那样 ,会 被 更 高 层 的 Python 对 象 包 装 
起 来 (例如 ,一 个 int 包装 了 integer)。 更 高 层 的 对 象 有 额外 的 函数 ， 就 像 为 
辅助 存储 的 ”hash 函数 ， 还 有 为 打印 的 ”str 函数。 

在 CPU 密集 型 的 代码 区 域内 部 ， 不 改变 变量 类 型 的 情况 很 常见 。 这 就 给 了 我 们 一 
个 机 会 来 做 静态 编译 和 加 快 代码 运行 。 

如 果 我 们 想 要 的 一 切 全 都 是 大 量 的 中 间 级 的 数学 运算 , 我 们 就 不 需要 更 高 层次 的 函 
数 , 我 们 也 不 大 可 能 需要 引用 计数 的 机 制 。 我 们 会 向 下 进入 到 机 器 代码 的 层面 ,并 
且 使 用 机 器 码 和 字 节 来 快速 运算 ， 而 不 是 去 操控 更 高 层次 的 Python 对 象 ， 那 会 涉 
及 更 大 的 开销 。 要 做 到 这 个 , 我们 就 要 提前 决定 对 象 的 类 型 ,这 样 我 们 就 能 产生 正 
确 的 C 代码 。 


7.4 使 用 C 编译 器 


在 接 下 来 的 示例 中 ,我 们 会 从 GNU C 编译 器 的 工具 链 中 使 用 gcc 和 g++。 如 果 你 
能 正确 配置 环境 ， 你 可 能 会 选择 替代 gcc 的 编译 器 (例如 ，Intel 的 icc 或 者 微软 
的 cl)。Cython 使 用 了 gcc，Shed Skin 使 用 了 g++。 


gcc 对 大 多 数 平台 来 说 是 很 好 的 选择 , 它 得 到 了 很 好 的 支持 还 很 先进 。 虽 然 经 常 有 
可 能 利用 调制 的 编译 器 (例如 Intel 的 icc 可 能 会 在 Intel 设备 上 生成 比 gcc 更 快 
的 代码 ) 来 压榨 出 更 高 的 性 能 , 但 是 代价 就 是 你 不 得 不 去 获取 一 些 更 多 的 领域 知识 
并 且 学 习 在 蔡 代 gcc 的 编译 器 上 怎样 去 调制 开关 项 。 
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C 和 C++ 经 常 被 用 作 静 态 编 译 器 ， 而 不 用 其 他 语言 ， 比 如 Fortran， 这 要 归 因 于 C 
和 C++ 的 普 适 性 和 大 范围 的 支持 库 。 编 译 器 和 转换 器 (Cython 等 ， 在 这 种 情况 下 
是 转换 器 ) 有 机 会 来 学 习 注解 代码 从 而 决定 静态 优化 步骤 (就 像 内 联 函数 和 循环 展 
开 ) 是 否 要 采用 。 对 中 间 级 的 抽象 语法 树 的 贪 梦 分 析 (由 Pythran、Numba 和 PyPy 
执行 ) 提供 了 机 会 来 结合 Python 表达 法 的 知识 ， 从 而 去 通知 底层 编译 器 尽 可 能 利 
用 已 经 看 见 的 模式 。 


7.5 复习 Julia 集 的 例子 


回 到 第 2 章 我 们 剖析 了 Julia 集 产生 器 。 这 个 代码 使 用 整数 和 复数 来 生成 输出 图 片 。 
图 片 的 计算 是 CPU 密集 型 的 。 在 代码 中 主要 的 开销 就 是 有 个 计算 输出 列表 的 内 循 
环 ， 这 是 CPU 密集 型 的 本 质 。 这 个 列表 能 被 当 作 方形 的 像素 阵列 来 画 出 ， 其 中 每 
个 值 代 表 了 产生 那个 像素 的 开销 。 
内 循环 的 代码 显示 在 例 7-1 中 。 

例 7-1 复习 Julia 函数 的 CPU 密集 型 代码 


def calculate z serial purepython (maxiter, zs, cs): 
"" "Calculate output 1list using Julia update rule™™"™" 



















































































output = [0] * len(zs) 
for i in range (len(zs)): 
n= 0 
z= zs[i] 
c= cs[lil] 


while n < maxiter and abs(z) < 2: 


Zh 
Lo 示 二 :于 
output[i] = n 


return output 


在 Ian 的 笔记 本 电脑 上 ， 原 始 的 Julia 集 在 1000*1000 的 格子 中 计算 并 且 maxiter= 
300， 使 用 运行 在 CPython2.7 中 的 纯粹 Python 实现， 计算 大 概 接近 于 11 秒 。 








7.6 Cython 


Cython 是 一 个 能 把 类 型 注解 的 Python 转换 为 一 个 扩展 编译 模块 的 编译 器 。 类 型 注 
解 如 同 C 一 样 。 能 够 像 一 个 常规 Python 模块 那样 使 用 import 来 导入 扩展 模块 。 一 
开始 简单 ， 但 是 它 有 一 个 学 习 曲 线 ， 必 须 去 攀登 每 一 级 更 高 的 复杂 度 和 优化 度 。 对 
Ian 来 说 ，Cython 是 一 个 可 以 选择 的 工具 ， 用 来 把 计算 密集 型 的 函数 转 为 更 快 的 代 
码 ， 这 是 由 于 它 的 广泛 使 用 性 、 成 熟 性 和 对 OpenMP 的 支持 。 
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随 着 OpenMP 标准 , 它 可 能 把 并 行 问题 转换 为 在 一 台 多 核 CPU 机 器 上 运行 的 多 
处 理 器 感知 模块 。 线 程 从 你 的 Python 代码 隐藏 起 来 了 ， 它 们 通过 生成 的 C 代码 


Cython (2007 年 发 布 ) 是 Pyrex (2002 年 发 布 ) 的 一 个 分 支 ， 在 原始 Pyrex 基础 上 
扩展 了 能 力 。 使 用 Cython 的 库 包括 scipy、scikit-learn、1xml 和 zmp。 


Cython 能 够 被 用 来 通过 一 个 setup.py 脚本 编译 一 个 模块 。 它 也 能 够 在 IPython 中 通 
过 一 个 “magic” 命 令 来 交互 使 用 。 通 常情 况 下 类 型 由 开发 者 注解 ， 尽 管 一 些 自动 
注解 也 是 有 可 能 的 。 


7.6.1 使 用 Cython 编译 纯 Python 版 本 
开始 写 一 个 扩展 编译 模块 的 简单 方法 涉及 3 个 文件 。 使 用 我 们 的 Julia 作为 例子 ， 


它们 是 : 

。 ”调用 它 的 Python 代码 (来 自前 面 的 Julia 代码 块 )。 

。 ”在 一 个 新 .pyx 文件 中 要 被 编译 的 函数 。 

。 一 个 setup.py， 包 含 了 调用 Cython 来 制作 扩展 模块 的 指令 。 


使 用 这 个 方法 ，setup.py 脚本 调用 Cython 把 .pyx 文件 编译 成 一 个 编译 模块 。 在 类 
UNIX 系统 上 , 编译 模块 可 能 会 是 一 个 .so 文件 ; 在 Windows 上 应 该 是 一 个 .pyd (类 
DLL 的 Python 库 ) 。 


对 于 Julia 的 例子 ， 我 们 会 用 : 

。 julial.py， 构 建 输入 列表 并 调用 计算 函数 。 

。 cythonfn.pyx， 包 含 了 我 们 能 注解 的 CPU 密集 型 函数 。 
。 setup.py， 包 含 了 构建 指令 。 


运行 setup.py 的 结果 就 是 获得 一 个 能 够 被 导入 的 模块 .在 例 7-2 的 julial.py 脚本 中 ， 
我 们 只 需要 做 一 些 很 小 的 改动 来 导入 新 的 模块 并 调用 我 们 的 函数 。 


例 7-2 导入 新 编译 模块 到 我 们 的 主 代码 中 














































































































import calculate # as defined in setup.py 


def calc pure python(desired width, max iterations): 
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start time = time.time() 
output = calculate.calculate z(max iterations, zs, cs) 
nd time = time.time () 





secs = end time - start time 
print "Took", secs, "seconds" 


在 例 7-3 中 ， 我 们 将 从 一 个 没有 类 型 注解 的 纯 Python 脚本 开始 。 


例 7-3 在 cythonfn.pyx (从 .py 重 命名 ) 中 为 Cython 的 setup.py 准备 的 未 改动 
过 的 纯 Python 代码 

# cythonfn.pyx 

def calculate z(maxiter, zs, cs): 





"""Calculate output 1list using Julia update rule™"™" 
output = [0] * len(zs) 
for i in range (len(zs)): 


n= 0 
z= zs[i] 
GE CS 了 


while n < maxiter and abs(z) < 2: 


2 
区 二 一 过 
output[i] = n 


return output 


在 例 7-4 中 显示 的 setup.py 脚本 是 简短 的 ， 它 定义 了 把 cythonfn.pyx 转换 为 
calculate.so 的 方法 。 


例 7-4 setup.py， 把 cythonfn.pyx 转换 为 由 Cython 去 编译 的 C 代码 


from distutils.core import setup 
from distutils.extension import Extension 
from Cython.Distutils import build ext 





Setup ( 
cmdclass = {'build ext': build ext}, 
ext modules = [Extension("calculate", ["cythonfn.pyx"])] 
) 





当 我 们 在 例 7-5 中 用 参数 build_ext 运 行 setup.py 脚本 时 ,Cython 会 查找 cythonfn.pyx 
并 构建 calculate.so。 








备 忘 
记 住 这 是 一 个 手动 步骤 一 一 如 果 你 更 新 了 你 的 .pyx 或 者 setup.py， 但 


是 忘记 重新 去 运行 构建 命令 ， 你 不 会 获得 一 个 要 导入 的 更 新 的 .so 模 
块 。 如 果 你 不 确定 是 否 编译 了 代码 ,检查 .so 文件 的 时 间 惟 。 如果 怀 疑 
的 话 ， 删 除 生 成 的 C 文件 和 .so 文件 ， 再 重新 构建 。 
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例 7-5 运行 setup.py 构建 一 个 新 的 编译 模块 

$ Python setup.py build ext --inplace 

running build ext 

cythoning cythonfn.pyx to cythonfn.c 

building 'calculate' extension 

gcc -pthread -fno-strict-aliasing -DNDEBUG -9 -fwrapv -02 -Wall 
-Wstrict-prototypes -fPIC -I/usr/include/python2.7 -c cythonfn.c 
-oO build/temp.linux-x86 64-2.7/cythonfn.o 

gcc -pthread -shared -Wi1,-01 -Wl,-Bsymbolic-functions -Wil, 





-Bsymbolic-functions -Wl,-z, 
relro build/temp.linux-x86 64-2.7/cythonfn.o -o calculate.so 


--inplace 参数 让 Cython 在 当前 目录 中 构建 编译 模块 , 而 不 是 在 一 个 独立 的 构建 
目录 中 。 在 构建 完成 后 ， 我 们 会 有 两 个 难以 卒 读 的 中 间 文 件 cythonfn.c 和 


calculate.so, 


现在 当 运 行 julial.py 时 ， 会 导入 编译 模块 ， 在 Ian 的 笔记 本 电脑 上 计算 Julia 集 在 
8.9 秒 内 做 完 ， 而 不 是 通常 的 多 于 11 秒 。 这 是 一 个 花费 很 少 工作 量 的 小 小 改进 。 


7.6.2 Cython 注解 来 分 析 代 码 块 

前 面 的 示例 给 我 们 演示 了 我 们 能 够 快速 构建 一 个 编译 模块 。 对 紧凑 的 循环 和 数学 运 
算 来 说 , 这 往往 能 带 来 速度 提升 。 很 明显 ,我 们 不 应 该 盲目 优化 一 一 我 们 需要 知道 
娜 里 慢 了 ， 这 样 就 能 够 决定 集中 于 哪个 方向 去 努力 。 


Cython 有 一 个 注解 选项 能 输出 一 个 可 以 让 我 们 在 浏览 器 上 查看 的 HTML 文件 。 要 
产生 注解 ， 我 们 要 使 用 命令 cython -a cythonfh.pyx 来 产生 输出 文件 
cythonfn.html。 在 浏览 器 中 它 看 起 来 就 像 图 7-2 中 的 那样 ,一 张 类 似 的 图 片 在 Cython 
文档 中 有 提供 。 











2013 年 11 月 10 日 周 日 18: 40: 05 由 Cython0.19.2 生 成 
原始 输出 : cythonfn.c 


学 > """Calculate output list Using Julia update rule""" 
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每 一 行 能 够 被 双击 扩展 来 显示 生成 的 C 代码 。 更 多 的 黄色 意味 着 “更 多 的 Python 
虚拟 机 调用 ”， 而 更 多 的 白色 意味 着 “更 多 的 非 Python 的 C 代码 ”。 目 标 就 是 移 除 
尽 可 能 多 的 黄色 并 以 更 尽 可 能 多 的 白色 来 结束 。 


尽管 “更 多 的 黄色 线条 ”意味 着 更 多 的 虚拟 机 调用 , 但 这 并 不 一 定 让 你 的 代码 跑 得 
更 慢 。 每 一 个 虚拟 机 调用 都 有 一 个 开销 , 但 是 这 些 调用 的 开销 仅 当 发 生 于 大 循环 的 
内 部 时 才 会 变 得 显著 。 在 大 循环 外 部 的 调用 (例如 , 在 函数 开始 处 创建 输出 的 一 行 ) 
相对 于 内 部 的 计算 循环 的 开销 来 说 并 不 高 。 不 用 把 你 的 时 间 浪 费 在 不 会 拖 慢 运行 速 
度 的 代码 行 间 。 


在 我 们 的 例子 中 , 那些 回调 Python 虚拟 机 最 多 次 的 代码 行 (“最深 的 黄色 ”) 是 第 4 
行 和 第 8 行 。 从 我 们 之 前 的 剖析 工作 中 , 我 们 知道 第 8 行 可 能 被 调用 了 超过 3 千 万 
次 ， 所 以 这 是 一 个 需要 集中 很 多 精力 的 候选 对 象 。 


第 9、10 和 11 行 几 乎 是 一 样 深度 的 黄色 ， 我 们 也 知道 它们 是 在 紧凑 的 内 循环 内 。 
总 体 上 ,它们 占 了 这 个 函数 执行 时 间 的 大 部 分 ,所 以 我 们 需要 首先 集中 于 它们 上 面 。 
如 果 你 需要 回忆 起 多 少时 间 花 费 在 这 部 分 上 了 ， 请 向 前 参考 2.8 节 。 

第 6 和 第 7 行 的 黄色 深度 减弱 了 ,既然 它们 只 是 被 调用 了 一 百 万 次 , 它们 对 最 终 的 
速度 影响 就 小 得 多 了 ， 所 以 我 们 可 以 在 稍 后 再 集中 于 它们 身上 。 事实 上 ， 因 为 它们 
是 列表 对 和 象 ， 我 们 几乎 没有 办 法 来 提升 他 们 的 存 取 速度 ， 除 非 如 我 们 将 会 在 7.8 节 
中 读 到 的 那样 ， 用 numpy 数组 来 取代 1ist 对 象 ， 这 会 带 来 小 小 的 速度 优势 。 
为 了 更 好 地 理解 黄色 区 域 ， 我 们 可 以 双击 展开 每 一 行 。 在 图 7-3 中 ， 我 们 可 以 看 
到 为 了 创建 输出 列表 ， 我们 遍历 了 zs 的 长 度 , 创建 了 新 的 由 Python 虚拟 机 来 引 
用 计数 的 Python 对 象 。 尽管 这 些 调用 是 耗 时 的 , 它们 不 会 真正 影响 这 个 函数 的 执 
行 时 间 。 

为 了 改进 函数 的 执行 时 间 , 我 们 需要 开始 声明 对 和 象 的 类 型 , 这些 对 象 被 包含 在 了 耗 
时 的 内 循环 中 。 这 样 这 些 循 环 才能 够 减少 相对 耗 时 的 回调 Python 虚拟 机 的 次 数 ， 
从 而 节省 时 间 。 

一 般 情 况 下 ， 可 能 最 消耗 CPU 时 间 的 代码 行 是 下 面 这 些 : 

。 在 紧凑 的 内 循环 内 。 

。 解 引用 1ist、array 或 者 np.array 这 些 项 。 


。 ”执行 数学 运算 。 
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原始 输出 : cythonfn.c 


"""Calculate output list using Julia te rule""" 











图 7-3 在 一 行 Python 代码 后 面 的 C 代码 


备 忘 

如 果 你 并 不 知道 哪些 代码 行 执 行 得 最 频繁 ， 使 用 一 个 剖析 工具 是 最 合适 
的 一 一 ]ine profile, 在 2.8 节 中 讨论 过 ,你 将 会 得 到 哪些 行 在 Python 
虚拟 机 中 消耗 最 多 ， 这 样 你 就 会 有 一 个 清晰 的 依据 再 次 集中 于 那些 代码 
行 以 获得 最 佳 的 速度 。 


7.6.3 增加 一 些 类 型 注解 
图 7-2 展示 了 函数 几乎 每 一 行 都 回调 了 Python 虚拟 机 。 我 们 所 有 的 数值 运算 也 都 
回调 了 Python 虚拟 机 ， 因 为 我 们 使 用 的 是 高 层 的 Python 对 象 。 我 们 需要 把 这 些 都 
转换 为 本 地 C 对 象 ， 接 着 在 进行 数值 方面 的 编码 时 ， 我 们 需要 把 结果 再 转换 回 
Python 对 象 。 
在 例 7-6 中 ， 我 们 会 看 到 怎样 使 用 cdef 语法 来 增加 一 些 原始 类 型 。 
备 忘 
值得 重视 的 是 那些 类 型 只 能 被 Cython 理解 ， 而 不 是 Python。Cython 
使 用 这 些 类 型 把 Python 代码 转换 为 C 对 象 , 而 不 需要 回调 Python 栈 ， 
这 意味 着 运算 能 执行 得 更 快 ， 但 是 损失 了 灵活 性 和 开发 速度 。 
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我 们 增加 的 类 型 是 : 
。 ”有 符号 整数 int。 


。 只 能 为 正 的 无 符号 整数 unsigned int。 





。  ” 双 精 度 复数 double complex。 


cdef 关键 字 让 我 们 在 函数 体内 声明 变量 。 作 为 C 语言 规范 的 需求 ， 这 些 声 明 必 须 
出 现在 函数 顶部 。 


例 7-6 增加 原始 C 类 型 开始 让 我 们 的 编译 函数 运行 更 快 ， 通 过 用 C 做 更 多 工 
作 从 而 减少 Python 虚拟 机 的 工作 
def calculate z(int maxiter, zs, cs) : 
""nCalculate output 1ist using Julia update rule"™"™" 
cdef unsigned int i, n 
cdef double complex z, Cc 
output = [0] * len(zs) 
for i in range (len(zs)): 
n 

















We 


zs[i] 
它 cs [1 ] 
while n < maxiter and abs(z) < 2: 
三 
n += 1 
output[i] = n 
return output 


备 忘 

当 增加 Cython 注解 后 ， 你 正在 给 .pyx 增加 非 Python 的 代码 。 这 意味 着 
你 丧失 了 在 解释 器 中 开发 Python 的 天 然 的 交互 性 。 对 熟悉 C 语言 编程 
的 人 来 说 ， 我 们 又 回 到 了 编码 一 编译 一 运行 一 调试 的 循环 中 去 了 。 


Zz 





你 可 能 会 奇怪 我 们 是 否 可 以 给 作为 参数 传人 的 list 增加 类 型 注解 。 我 们 能 够 使 用 
list 关键 字 ， 但 是 实践 中 对 于 这 个 例子 无 效 。1ist 对 象 还 是 不 得 不 在 Python 层 
面 去 查询 来 找 出 其 中 的 内 容 ， 速 度 是 很 慢 的 。 


给 其 中 一 些 原 始 对 象 增 加 类 型 的 做 法 在 图 7-4 中 的 注解 输出 中 反映 了 出 来 。 第 11 
和 12 行 是 很 关键 的 地 方 一 一 这 2 行 我 们 调用 最 频繁 的 代码 一 一 现在 已 由 黄色 转 为 
了 白色 ， 显 示 出 它们 不 再 去 回调 Python 虚拟 机 了 。 我 们 可 以 期 竺 与 前 面 的 版 本 比 
较 之 下 的 一 个 很 大 的 速度 提升 。 第 10 行 被 调用 了 超过 3 000 万 次 ， 所 以 我 们 还 是 
要 集中 在 它 上 面 。 
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2013 年 11 月 10 日 周 日 19: 05: 41 由 Cython0.19.2 生 成 
原始 输出 : cythonfn.c 


二 
3: 
4: 
We 
2: 


"""Calculate output list using Julia update rule""" 
cdef unsigned int i, n 
cdef double complex z, c 














图 7-4 我 们 的 第 一 个 类 型 注解 


在 编译 后 ， 这 个 版 本 花 了 4.3 秒 来 完成 任务 。 只 对 函数 做 了 很 少 的 改动 ， 我 们 却 忠 
出 了 是 原来 Python 版 本 两 倍 的 速度 。 


值得 重视 的 是 我 们 获得 提速 的 原因 是 更 多 的 频繁 调用 的 运算 被 放 到 了 C 的 层面 一 一 
在 这 个 案例 中 ， 更 新 了 z 和 mn。 这 意味 着 C 编译 器 能 够 去 优化 更 底层 的 函数 来 对 代 
表 这 些 变量 的 字 节 做 运算 ， 而 不 是 去 调用 相对 慢 速 的 Python 虚拟 机 。 


我 们 在 图 7-4 中 可 以 看 到 while 循环 还 是 相当 耗 时 的 (黄色 部 分 )。 耗 时 的 调用 在 
于 Python 对 复数 z 的 abs 函数 中 。Cython 没有 对 复数 提供 原生 的 abs 函数 。 作 
为 百代， 我 们 可 以 提供 自己 的 本 地 扩展 。 


就 如 本 章 前 面 提醒 的 那样 ， 对 一 个 复数 做 abs 涉及 对 实 部 和 虚 部 的 平方 和 开平 方 
根 。 在 我 们 的 测试 中 ,我们 想 要 看 看 结果 的 平方 根 是 否 小 于 2。 与 其 开平 方 根 ， 我 
们 不 如 对 比较 表达 式 的 另 一 端 求 平方 ， 因 此 我 们 把 <2 转换 为 <4。 这 就 避免 了 必须 
要 计算 平方 根来 作为 abs 函数 的 最 终结 果 。 


实质 上 ， 我 们 从 下 式 开 始 : 





Vereaf? +cimag” < V4 
我 们 还 有 简化 版 的 运算 : 
creal’ +cimag” <4 


如 果 我 们 在 下 列 代码 中 保留 了 sqrt 运算 , 我 们 还 是 能 看 到 执行 速度 的 提升 。 优 化 
代码 的 秘诀 之 一 就 是 让 它 尽 可 能 的 少 干 活 。 通 过 考虑 一 个 函数 的 最 终 目标 来 移 除 相 
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对 耗 时 的 运算 意味 着 C 编译 器 能 集中 于 它 所 擅长 的 方面 ， 而 不 是 尝试 去 感知 程序 


员 的 最 终 需求 。 


编写 等 价 的 但 是 更 特殊 的 代码 来 解决 相同 的 问题 就 是 所 谓 的 强度 减弱 。 你 用 更 糟糕 
的 灵活 性 (和 可 能 更 糟糕 的 可 读 性 ) 去 换 来 更 快 的 执行 速度 。 


数学 分 解 在 下 一 个 例子 中 ， 见 例 7-7， 其 中 我 们 已 经 用 一 行 简化 的 扩展 数学 表达 式 
来 代替 相对 耗 时 的 abs 函数 。 


例 7-7 用 Cython 来 扩展 abs 函数 


def calculate z(int maxiter, zs, cs) : 
"Calculate output list using Julia update rule"™™"" 
cdef unsigned int i, n 
cdef double complex z, Cc 


output = [0] * len(zs) 
for i in range (len(zs)): 
n= 0 
z= zs[i] 
c= cs[il] 


while n < maxiter and (z.real * zZ.real + ZzZ.imag * Zz.imag) < 4: 


成 三 世人 这 汪 @ 
n += 1 
output[i] = nm 


return output 
通过 代码 注解 ， 我 们 看 到 在 第 10 行 (图 7-5) 以 while 语句 为 代价 换 来 的 小 小 改 
进 。 现 在 它 包 含 了 更 少 的 Python 虚拟 机 调用 。 尽 管 对 于 能 够 获得 多 少 速度 提升 来 
说 并 不 是 立即 显而易见 的 ， 但 是 我 们 知道 这 行 被 调用 了 超过 3000 万 次 ， 因 此 我 们 
期 待 一 个 优越 的 性 能 提升 。 








2013 年 11 月 10 日 周 日 19: 21: 24 由 Cython0.19.2 生 成 
原始 输出 : cythonfn.c 


"""Calculate output list using Julia update rule""" 
cdef unsigned int i, n 









while n < maxiter and (z.real * z.real + z.imag * z.imag) < 4: 
入 科 导轨 亲家 
12: n += 1 














7-5 ”展开 数学 表达 式 取得 了 最 终 的 胜利 
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这 个 改变 有 巨大 的 效果 一 一 通过 减少 在 最 内 循环 中 Python 调用 的 次 数 ， 我 们 大 大 
降低 了 函数 的 运算 时 间 。 这 个 新 版 本 只 用 0.25 秒 就 执行 完毕 了 ， 具 有 超过 原版 本 
40 倍 的 速度 提升 ， 令 人 惊叹 。 

Cython 支持 几 种 编译 成 C 的 方式 ， 有 一 些 比 这 里 描述 的 全 类 型 注解 
方式 要 来 得 简单 。 如 果 你 想 要 一 个 更 简单 的 起 点 来 使 用 Cython， 并 
且 查 看 Pyximport 来 方便 向 同事 介绍 Cython, 你 应 该 熟悉 纯 Python 
模式 。 

为 了 对 代码 片段 做 最 终 可 能 的 改进 ， 我 们 会 禁止 list 中 的 每 个 解 引 用 的 边界 检 
查 。 边 界 检查 的 目的 是 确保 程序 不 会 去 访问 超出 分 配 数组 的 空间 一 一 在 C 中 ， 
很 容易 无 意 中 访 问 了 超出 数组 边界 的 内 存 ， 产 生 不 可 预料 的 结果 (可 能 是 一 个 


段 错误 !)。 


Cython 默认 会 保护 程序 员 免 于 意外 地 去 寻 址 超出 list 边界 的 空间 。 这 种 保护 消耗 了 
一 点 CPU 时 间 ， 但 是 它 发 生 于 我 们 函数 的 外 循环 处 ， 所 以 总 体 上 不 会 占用 很 多 时 
间 。 通 常 禁止 边界 检查 是 安全 的 ， 除 非 你 要 执行 自己 的 计算 来 做 数组 寻 址 ， 这 种 情 
况 下 你 会 不 得 不 小 心 惨 器 地 呆 在 list 的 边界 内 。 

Cython 有 一 系列 标志 开关 可 以 用 各 种 各 样 的 方式 去 表述 。 最 简单 的 就 是 在 .pyx 文 
件 的 起 始 处 把 它们 作为 单行 注释 加 入 。 也 可 以 利用 装饰 器 或 编译 时 标志 来 改变 这 些 
设 定 。 为 了 禁止 边界 检查 ， 我 们 在 .pyx 文件 开头 的 注释 内 给 Cython 增加 了 一 行 指 


今 (directive ) 。 











































































































#cython: boundscheck=False 
def calculate z(int maxiter, zs cs): 


要 注意 的 是 , 禁止 边界 检查 只 会 节省 一 点 时 间 ， 因 为 它 发 生 于 外 循环 中 ,而 不 是 在 
更 耗 时 的 内 循环 中 。 对 于 这 个 例子 来 说 ， 它 不 会 节省 更 多 的 时 间 。 








备 忘 
如 果 你 的 CPU 密集 型 代码 在 频繁 解 引 用 的 循环 中 ， 尝 试 禁 止 边界 检 
查 和 外 围 检查 。 


7.7 Shed Skin 


Shed Skin 是 一 个 和 Python2.4 一 2.7 一 起 使 用 的 实验 性 的 把 Python 转 为 C++ 的 编译 
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器 。 它 使 用 类 型 引用 来 自动 检查 Python 程序 来 注解 每 一 个 变量 。 被 注解 的 代码 接 
着 就 会 被 翻译 成 C 代码 , 可 以 被 g++ 之 类 的 标准 编译 器 编译 。 自 动 反 射 是 Shed Skin 
的 一 个 很 有 趣 的 特征 , 用 户 只 要 求 提供 一 个 关于 怎样 用 正确 类 型 的 数据 来 调用 函数 
的 例子 ，Shed Skin 会 把 剩 下 的 都 给 做 了 。 


类 型 引用 的 好 处 是 程序 员 不 需要 显 式 地 手动 声明 类 型 。 付出 的 开销 就 是 分 析 器 需要 
能 够 推导 出 程序 中 的 每 个 变量 的 类 型 。 在 当前 版 本 中 ， 上 千 行 Python 代码 能 被 自 
动 转换 成 C。 它 使 用 了 Boehm 的 标记 -清除 垃圾 收集 器 来 自动 管理 内 存 。Boehm 的 
垃圾 收集 器 也 用 于 Mono 和 Java 的 GNU 编译 器 。Shed Skin 的 缺点 就 是 它 使 用 了 
外 部 实现 的 标准 库 。 任 何 没 有 被 实现 的 库 (包含 numpy) 将 不 受 文 持 。 


整个 项 目 有 超过 75 个 例子 , 包括 了 许多 集中 于 数学 方面 的 纯 Python 模块 ， 甚 至 有 
一 个 能 够 完整 工作 的 Commodore 64 模拟 器 。 每 一 个 模块 在 用 Shed Skin 编译 后 ， 
相 比 本 地 运行 的 CPython， 速 度 得 到 明显 的 提升 。 


Shed Skin 能 构建 独立 的 可 执行 程序 ， 不 依赖 于 已 安装 的 Python 安装 包 或 者 在 常规 
Python 代码 中 用 import 导入 的 扩展 模块 。 


编译 模块 管理 它们 自己 的 内 存 。 这 意味 着 来 自 Python 进程 的 内 存 被 拷贝 进来 并 且 
结果 被 拷贝 出 去 一 一 没有 显 式 的 共享 内 存 。 对 于 大 块 内 存 (例如 , 一 个 大 甜 阵 ) 执 
行 拷贝 的 开销 很 显著 ， 我 们 在 本 节 末 尾 会 简略 看 一 下 。 


Shed Skin 提供 了 和 PyPy 一 样 的 很 多 好 人 处 (请 看 7.11 节 )。 因 此 ,PyPy 可 能 更 容易 
使 用 ， 因 为 它 不 需要 任何 编译 步骤。Shed Skin 自动 增加 类 型 注解 的 方式 可 能 让 一 
些 用 户 很 感 兴趣 ， 并 且 生 成 的 C 代码 比 Cython 生成 的 可 读 性 高 ， 如 果 你 希望 修改 
生成 的 C 代码 的 话 。 我 们 肯定 地 猜测 自动 类 型 反射 代码 会 让 社区 中 的 其 他 编译 器 


7.7.1 构建 扩展 模块 
在 这 个 例子 中 , 我 们 会 构建 一 个 扩展 模块 。 我 们 会 导入 生成 的 模块 , 就 如 在 Cython 
的 示例 中 做 的 那样 。 我 们 也 能 够 把 这 个 模块 编译 成 一 个 独立 的 可 执行 文件 。 


在 例 7-8 中 ,我 们 有 一 个 在 独立 模块 中 的 代码 示例 , 它 包 含 了 无 法 注解 的 普通 Python 
代码 。 也 要 注意 我 们 已 经 增加 了 一 个 “main “测试 一 一 这 使 得 这 个 模块 可 以 被 独 
立 运 行 来 做 类 型 分 析 。Shed Skin 能 够 使 用 这 个 main _ 块 来 提供 示例 中 的 参数 ， 
从 而 去 推导 出 传人 calculate_z 的 参数 类 型 ， 进 而 推导 出 在 CPU 密集 型 函数 内 
部 所 使 用 的 数据 类 型 。 
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例 7-8 把 我 们 的 CPU 密集 型 函数 挪 到 一 个 分 离 的 模块 去 (就 如 我 们 用 Cython 
做 的 那样 ) 来 让 Shed Skin 的 自动 类 型 推导 系统 运行 
# shedskinfn.py 
def calculate z(maxiter, zs, cs): 
"""Calculate output list using Julia update rule™"™" 


output = [0] * len(zs) 
for i in range (len(zs)): 
n=0 
z= zs[i] 
c= cs[il] 


while n < maxiter and abs(z) < 2: 


ZZ 
I 守 瑟 “出 
output[i] = n 


return output 


主 下 name == " main 





#make atrivial example using the correct types to enable type inferenc 





# call the function so Shed Skin can analyze the types 
output = calculate z(1, [0j], [0j]) 


我 们 能 够 像 例 7-9 中 那样 ， 既 可 以 在 这 个 模块 被 编译 之 前 导入 它 ， 也 可 以 在 这 个 模 
块 被 编译 之 后 再 导入 它 ， 就 像 通常 所 做 的 那样 。 既 然 代 码 没有 被 改动 过 (不 像 使 用 
Cython 那样 ), 我 们 就 能 在 编译 前 调用 Python 的 原生 模块 。 如 果 你 还 未 编译 过 你 的 
代码 ， 你 不 会 得 到 速度 提升 ， 但 是 你 能 够 使 用 常规 的 Python 工具 以 一 种 轻 量 级 的 
方式 来 调试 。 

例 7-9 导入 外 部 模块 以 便 让 Shed Skin 编译 它 




















import shedskinfn 


def calc pure python(desired width, max iterations) : 


A 

start time = time.time() 

output = shedskinfn.calculate z(max iterations, zs, cs) 
nd time = time.time() 





secs = end time - start time 
print "Took", secs, "seconds" 


就 如 在 例 7-10 中 所 见 ， 我 们 能 使 用 Shedskin -ann shedskin.py 让 Shed 
Skin 提供 一 个 它 所 分 析 的 注解 输出 , 这 会 生成 shedskinfn.ss.py。 如 果 我 们 要 
编译 一 个 扩展 模块 ， 我 们 只 需要 用 空 的 ”main ”函数 来 做 分 析 “ 种 子 ”。 








142 第 7 章 , 
异步 社区 会 员 woshigedushuren(13120020972) 专 享 尊重 版 权 


例 7-10 检查 Shed Skin 的 注解 输出 看 下 它 推导 出 了 哪些 类 型 
# shedskinfn.ss.py 
def calculate z(maxiter, zs, cs) : # maxiter: 1/IntJv 
# zs: [list (complex)], 
# cs: [1ist (complex)] 
"""Calculate output list using Julia update rule™"" 
output = [0] * len(zs) # [list (int)] 


for i in range (len(zs)): #[ iter(int)] 
n=0 # [int] 
z= zs[i] # [complex] 
GERGs[ 了 | # [complex] 
while n < maxiter and abs(z) < 2: # [complex] 
2Z=2ZKk2Z+C # [complex] 
n += 1 # [int] 
output[i] = n # [int] 
return output # [1ist (int)] 


站 name == " main ": # [] 
#make atrivial example using the correct types to enable type inference 
# call the function so Shed Skin can analyze the types 
output = calculate z(1, [0j], [0j]) # [1list (int)] 


_ main 的 类 型 被 分 析 之 后 , 接着 在 calculate_z 的 内 部 , 变量 z 和 c 的 类 型 
能 够 从 与 它们 有 互动 的 对 象 中 推导 出 来 。 

我 们 使 用 shedskin --extmod shedskinfn.py 来 编译 这 个 模块 ， 会 生成 下 列 
文件 : 


。 shedskinfn.hpp (C++ 头 文 件 ) 。 

















。 ”shedskinfn.cpp (C++ 源 文件 ) 。 
e Makefile, 


通过 运行 make ， 我 们 就 生成 了 shedskinfn.so。 我们 能 够 通过 import 
shedskinfn 在 Python 中 使 用 。 用 shedskinfn.so 来 执行 julial .py 的 时 间 
只 有 0.4 秒 一 一 相 比 未 编译 的 版 本 ， 只 做 了 很 小 的 工作 就 取得 了 巨大 的 胜利 。 


我 们 也 能 展开 abs 函数 ， 就 如 我 们 用 Cython 在 例 7-7 中 做 的 那样 。 在 运行 这 个 版 
本 (只 改 了 abs 那 一 行 ) 并 使 用 一 些 额 外 的 标志 位 --nobounds --nowrap 之 后 ， 
我 们 得 到 了 一 个 0.3 秒 的 最 终 执 行 时 间 。 这 比 Cython 版 本 稍 慢 一 点 ( 慢 0.05 秒 )， 
晶 是 我 们 不 需要 声明 所 有 的 类 型 信息 。 这 使 得 用 Shed Skin 来 做 实验 很 容易 。PyPy 
以 相近 的 速度 运行 了 这 个 代码 的 相同 版 本 。 


























ks 
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备 忘 

仅仅 是 因为 Cython、PyPy 和 Shed Skin 在 这 个 例子 中 跑 出 了 相近 的 速 
度 ， 但 这 并 不 意味 着 这 是 普遍 性 的 结果 。 为 了 让 你 的 项 目 得 到 最 佳 提 
速 ， 你 必须 调查 这 些 不 同 的 工具 并 运行 你 自己 的 实验 。 


Shed Skin 允许 你 声明 额外 的 编译 期 选项 ， 比 如 -ffast-math 或 -o3, 并 且 你 能 够 
在 两 遍 扫 描 (第 一 遍 收集 执行 统计 信息 , 第 二 遍 在 这 些 统计 信息 基础 上 优化 生成 的 
代码 ) 中 增加 剖析 导向 优化 〈(PGO ) 来 设法 做 出 进一步 的 速度 提升 。 然 而 剖析 导向 
优化 没有 让 Julia 的 例子 跑 得 更 快 ， 在 实践 中 它 通常 很 少 或 没有 真实 效果 。 


你 应 该 注意 到 默认 整数 是 32 比特 的 , 如 果 你 想 要 更 大 的 64 比特 整数 范围 ,那么 就 
声明 --1ong 标志 。 你 也 应 该 避免 在 紧凑 的 内 循环 中 分 配 小 对 象 (例如 ,new tuples)， 
为 垃圾 收集 器 并 不 能 高 效 地 处 理 它们 。 


7.7.2 内存 拷 贝 的 开销 

在 我 们 的 示例 中 ,Shed Skin 通过 把 数据 扁平 化 成 基本 C 类 型 的 方式 把 Python 的 list 
对 象 拷贝 进 Shed Skin 的 环境 中 来 ， 接 着 在 执行 函数 的 末尾 把 结果 从 C 函数 转换 为 
Python 的 1ist。 这 些 转 换 和 拷贝 花费 时 间 。 这 大 概 就 占 了 我 们 在 前 面 的 结果 中 看 
到 的 多 出 来 的 0.05 秒 ( 相 比 Cython 的 结果 多 了 0.05 秒 ) 吧 ? 


我 们 能 够 修改 Shedskinfhn.py 文件 来 移 除 实际 的 工作 量 , 这 样 我 们 就 能 计算 经 由 Shed 
Skin 把 数据 找 进 拷 出 的 开销 。 下 面 的 calculate_z 的 变 体 是 我 们 所 需要 的 : 
def calculate z(maxiter, zs, cs) : 
"""Calculate output list using Julia update rule™"™" 


output = [0] * len(zs) 
return output 


当 我 们 用 这 个 框架 函数 执行 julial .py 时 ， 执 行 时 间接 近 于 0.05 秒 (显然 它 不 
计算 正确 结果 !)。 这 个 时 间 是 把 2000000 个 复数 据 贝 进 calculate z 并 把 
1000000 个 整数 再 次 拷贝 出 来 的 开销 。 实 质 上 ，Shed Skin 和 Cython 生成 了 相同 的 
机 器 码 ， 执 行 速度 的 差异 归结 于 Shed Skin 在 一 个 独立 的 内 存 空间 运行 ， 还 有 就 是 
所 需 的 拷 进 拷 出 数据 的 开销 。 硬 币 的 另 一 面 就 是 ， 使 用 Shed Skin， 你 不 必 预 先 做 
注解 工作 ， 节 省 了 相当 多 的 时 间 。 



























































































































































7.8 Cython 和 numpy 


list 对 象 (作为 背景 ,请 看 第 3 章 ) 的 每 一 个 解 引 用 都 有 开销 ， 因 为 它们 所 引用 的 
对 象 可 以 存在 于 内 存 中 任意 处 。 而 相反 , array 对 象 在 RAM 的 连续 块 中 存储 原生 类 
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型 ， 能 够 被 快速 寻 址 。 


Python 具有 array 模块 , 为 基础 原生 类 型 (包括 整数 、 浮 点 数 、 字 符 串 和 Unicode 
字 串 ) 提供 了 一 维 存 储 。Numpy 的 numpy .array 模块 允许 多 维 存储 和 更 多 样 的 
原生 类 型 ， 包 括 复数 。 


当 以 可 预测 的 方式 去 碗 代 访 问 一 个 array 对 象 时 ， 如 果 要 移动 到 序列 中 的 下 一 个 
原生 项 ， 编 译 器 会 被 指导 去 直接 访问 该 项 的 内 存 地 址 ， 而 不 是 让 Python 来 计算 出 
一 个 合适 的 地 址 。 既 然 数据 布局 到 了 连续 块 中 ， 在 C 中 用 偏 移 量 来 计算 下 一 项 的 
地 址 就 是 轻而易举 的 , 而 不 要 让 CPython 去 计算 来 得 到 相同 的 结果 ,因为 这 会 涉及 
慢 速 的 虚拟 机 回调 。 


你 应 该 注意 到 了 如 果 运 行 接 下 来 的 numpy 版 本 而 不 用 任何 Cython 注解 (例如 ,只 
是 作为 一 个 普通 Python 脚本 运行 ), 大 概要 71 秒 跑 完 一 一 远 超出 普通 的 Python list 
脚本 ， 它 大 概 花 费 11 秒 。 拖 慢 运 行 速度 的 原因 是 在 numpy 1lists 中 解 引 用 每 一 
个 元 素 的 开销 它 从 来 不 是 为 这 种 用 法 而 设计 的 , 即使 对 初学 者 来 说 , 这 种 用 法 
看 上 去 直观 。 通 过 编译 代码 ， 我 们 移 除了 这 个 开销 。 


Cython 为 此 有 两 种 特殊 的 语法 形式 。 更 老 的 Cython 版 本 有 一 种 特殊 的 访问 numpy 
array 的 类 型 ， 但 最 近 更 一 般 化 的 缓存 接口 协议 通过 memoryview 引入 了 进来 
一 一 允许 对 实现 了 缓存 接口 的 任意 对 象 进行 相同 的 低级 访问 ,包括 numpy arrays 
和 Python arrays。 


缓存 接口 的 一 个 附加 优势 是 内 存 块 能 够 很 容易 地 在 其 他 C 库 中 共享 ， 而 不 需要 把 
它们 从 Python 对 象 转换 成 其 他 形式 。 


例 7-11 中 的 代码 块 看 上 去 有 一 点 像 原来 的 实现 , 除了 我 们 增加 的 memoryvievw 注 
解 外 。 函 数 的 第 2 个 参数 是 double complex[:] zs， 意 味 着 我 们 有 一 个 使 用 
缓存 协议 〈 用 [] 声明 ) 的 双 精 度 复数 对 象 ， 包 含 了 一 个 一 维 的 数据 块 (由 一 个 冒 


号 : 声明 )。 


例 7-11 Julia 计算 函数 的 注解 numpy 版 本 


# cython np.pyx 
import numpy as np 
cimport numpy as np 





















































































































































def calculate z(int maxiter, double complex[:] zs, double complex[:] cs): 
"mCalculate output list using Julia update rule"™"™" 
cdef unsigned int i, n 
cdef double complex z, Cc 
cdef int[:] output = np.empty(len(zs), dtype=np.int32) 
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for i in range(len(zs)): 


nn = 0 

z= zs[i] 

& =, Cs,[1] 

while n < maxiter and (z.real * zZ.real + ZzZ.imag * Z.imag) < 4: 
2 A 
a eh 

output[i] = n 


return output 
除了 使 用 缓存 注解 语法 声明 输入 参数 外 ， 我 们 也 注解 了 输出 变量 ， 由 empty 给 它 
分 配 了 一 个 一 维 的 numpy array。 调 用 empty 会 分 配 一 块 内 存 ， 但 是 不 会 用 完 
整 的 数值 初始 化 内 存 , 所 以 它 不 包含 任何 东西 。 我 们 在 内 循环 中 会 覆 写 这 个 array 
的 内 容 ， 所 以 我 们 不 需要 重复 给 它 赋 默认 值 。 这 要 比分 配 并 给 array 的 内 容 赋 默 
认 值 要 稍 快 一 点 。 


我 们 也 使 用 更 快 、 更 显 式 的 数学 版 本 来 展开 abs 的 调用 。 这 个 版 本 用 了 0.23 秒 忠 
完 一 一 结果 比 原来 在 例 7-7 中 的 纯 Python 的 Julia 例子 的 Cython 化 版 本 要 稍微 快 
点 。 纯 Python 版 本 有 每 次 解 引 用 一 个 Python 复数 对 象 的 开销 ， 但 是 这 些 解 引 用 发 
生 于 外 循环 中 ， 所 以 不 占用 多 少 执行 时 间 。 在 外 循环 之 后 , 我 们 做 了 这 些 变量 的 本 
地 版 本 ,它们 以 “C 的 速度 ”运行 。 这 个 numpy 的 例子 和 之 前 的 纯 Python 例子 中 
的 内 循环 都 对 相同 的 数据 做 了 相同 的 处 理 , 所 以 执行 时 间 的 差异 归 因 于 外 循环 中 的 
解 引用 和 输出 队列 的 创建 。 


在 一 台 机 器 上 使 用 OpenMP 来 做 并 行 解决 方案 

作为 这 版 代码 演进 的 最 后 步 又, 让 我 们 看 一 下 使 用 OpenMP C++ 扩展 来 并 行 化 处 理 
让 我 们 为 难 的 并 行 问题 。 如果 你 的 问题 适合 这 个 模式 , 那么 你 就 能 很 快 发 挥 你 的 计 
算 机 多 核 的 优势 。 


OpenMP (Open Multi-Processing) 是 一 个 定义 良好 的 跨 平台 API， 支 持 并 行 执行 ， 

以 及 与 C、C++ 和 Fortran 的 内 存 共享 。 它 被 构建 人 了 大 多 数 的 现代 C 编译 器， 如 
果 C 代码 编写 合适 的 话 ， 并 行 化 就 会 在 编译 器 级 别 上 发 生 ， 所 以 它 就 给 开发 者 使 
用 Cython 带 来 了 相对 小 的 工作 量 。 





























































































































与 Cython 一 起 , OpenMP 能 够 通过 使 用 prange (并 行 range) 操作 符 和 给 setup .Py 
增加 -fopenmp 编译 指令 的 方式 加 入 进来 。 在 一 个 prange 循环 中 的 工作 就 能 够 
做 到 并 行 运行 ， 因 为 我 们 禁止 了 全 局 解释 器 锁 (GIL)。 

一 个 修改 过 的 支持 prange 的 代码 版 本 显示 在 例 7-12 中 。 用 nogi1l :来 声明 禁止 


GIL 的 代码 块 , 在 这 个 代码 块 内 部 , 我们 使 用 prange 为 循环 开启 OpenMP 并 行 模 
式 来 独立 计算 每 一 个 i。 
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当 禁 止 GIL 时 ， 我 们 一 定 不 能 在 常规 Python 对 象 (例如 ，1lists ) 

上 操作 ， 必 须要 在 原生 对 象 和 支持 memoryview 接口 的 对 象 上 去 操 
作 。 如 果 并 行 操作 了 常规 的 Python 对 象 ， 我 们 不 得 不 去 解决 随 之 
而 来 的 内 存 管理 问题 ， 而 这 是 GIL 意图 避免 的 。Cython 不 阻止 我 
们 去 操控 Python 对 象 ， 但 是 如 果 你 这 样 做 ， 只 会 招来 痛苦 和 困扰 。 








例 7-12 增加 prange 来 启用 OpenMP 并 行 化 
# cython np.pyx 

from cython.parallel import prange 
import numpy as np 

cimport numpy as np 


def calculate z (int maxiter, double complex[:] zs, double complex[:] cs): 


""nCalculate output 1list using Julia update rule"™"™" 
cdef unsigned int i, length 
cdef double complex z, Cc 
cdef int[:] output = np.empty(len(zs), dtype=np.int32) 
length = len (zs) 
with nogil: 

for i in prange(length, schedule="guided"): 


z= zs[i] 
C =. GCs:[i] 
output[i] = 0 


while output{[i] < maxiter and (z.real * Z.real + z.imag * z.imag) < 4: 


pe A 
output[i] += 1 
return output 


为 了 编译 cython_np.pyx， 我 们 不 得 不 修改 setup.py 脚本 ， 就 如 在 例 7-13 中 显示 的 
那样 。 我 们 让 它 通知 C 编译 器 在 编译 期 间 使 用 -fopenmp 作为 参数 来 启用 OpenMP 








以 及 和 OpenMP 库 去 链接 。 
例 7-13 为 Cython 在 setup.py 中 增加 OpenMP 编译 器 和 和 链接 髓 标志 
#setup.py 


from distutils.core import setup 
from distutils.extension import Extension 
from Cython.Distutils import build ext 


Setup ( 
cmdclass = {'build ext': build ext}, 
ext modules = [Extension("calculate", 
["cython np.pyx"], 
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extra compile args=['-fopenmp'], 
extra link args=['-fopenmp'])] 
) 


使 用 Cython 的 prange， 我 们 能 够 选择 不 同 的 调度 方式 。 使 用 static， 工 作 负 
载 可 以 均匀 地 在 可 用 的 CPU 之 间 分 布 。 我 们 的 一 些 计算 区 域 在 时 间 上 是 开销 很 大 
的 , 另 一 些 则 开销 很 小 。 如果 我 们 用 static 让 Cython 在 CPU 之 间 平 等 地 调度 工 
作 块 ， 那 么 一 些 区 域 要 比 另 外 一 些 完 成 得 快 ， 那 些 线程 就 会 处 于 空闲 状态 。 
Dynamic 和 guideg 调度 选项 都 企图 缓解 这 个 问题 ， 可 以 通过 在 运行 时 动态 地 把 
工作 分 配给 更 小 的 块 ， 这 样 当 工作 负载 的 运算 时 间 可 变 时 ，CPU 会 更 均匀 地 得 到 
分 布 。 对 你 的 代码 来 说 ， 正 确 的 选择 将 会 是 根据 你 的 工作 负载 的 本 质 而 做 改变 。 
通过 引入 OpenMP 和 使 用 schedule= “guided' ， 我 们 把 执行 时 间 降 低 到 了 接近 
0.07 秒 一 一 guiqeq 调度 会 动态 地 分 配 工作 ， 所 以 更 少 的 线程 在 等 待 新 的 工作 。 
我 们 也 可 能 为 这 个 例子 使 用 #cython:boundscheck=False 来 禁止 边界 检查 ， 
但 是 这 不 会 改进 我 们 的 运行 时 间 。 




































































7.9 Numba 


来 自 Continuum Analytics 的 Numba 是 一 个 专用 于 numpy 代码 的 即时 编译 器 , 在 运 
行 时 由 LLVM 编译 器 (不 是 由 我 们 在 之 前 例子 中 所 用 的 g++ 或 gcc) 来 编译 。 它 
不 需要 预 编译 扫描 ,所 以 当 你 用 它 来 运行 新 代码 时 , 它 会 根据 你 的 硬件 编译 每 一 个 
注解 的 函数 。 漂 亮 之 处 就 是 你 提供 了 一 个 装饰 器 告诉 它 需 要 集中 于 哪些 函数 , 接着 
你 就 让 Numba 接手 。 它 的 目标 是 在 所 有 标准 numpy 代码 上 运行 。 


这 是 一 个 更 年 轻 的 项 目 (我 们 使 用 v0.13)， 它 的 API 可 能 会 随 着 每 一 次 发 布 发 生 
小 小 的 改变 ， 所 以 认为 当前 它 在 研究 环境 中 更 有 用 。 如 果 你 使 用 numpy array， 
并 且 有 和 迭代 许多 次 的 非 向 量 代码 , Numba 会 给 你 一 个 快速 而 不 需 付 出 什么 代价 的 
胜利 。 


使 用 Numba 的 一 个 缺点 就 是 工具 链 一 一 它 使 用 了 LLVM， 具 有 很 多 的 依赖 性 。 我 
们 推荐 你 使 用 Continuum 的 Anaconda 发 布 包 ， 因 为 它 提 供 了 所 有 一 切 ， 否 则 在 一 
个 全 新 的 环境 中 安装 Numba 是 一 个 很 耗 时 的 任务 。 


例 7-14 展示 了 给 我 们 的 核心 Julia 函数 增加 @jit 装饰 器 。 这 就 是 所 需 的 全 部 
了 ，numba 被 导入 的 事实 意味 着 LLVM 机 制 会 在 运行 时 发 挥 作用 ， 在 幕后 编译 
这 个 函数 。 
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例 7-14 让 函数 应 用 @jit 装修 器 

from numba import 了 it 

ejit () 

def calculate z serial purepython (maxiter, zs, cs, output): 
如 果 移 除了 @jit 装饰 器 ， 那 么 这 只 是 用 Python2.7 运行 的 Julia 演示 版 的 numpy 
版 本 ， 它 花费 了 71 秒 。 增 加 @jit 装饰 器 后 执行 时 间 降 低 到 0.3 秒 。 这 已 经 很 接近 
我 们 用 Cython 达成 的 结果 了 ， 然 而 又 没有 多 出 注解 的 工作 量 。 


如 果 我 们 在 同一 个 Python 会 话 中 第 2 次 去 运行 相同 的 函数 ， 它 甚至 跑 得 更 快 一 一 
如 果 参 数 类 型 一 样 的 话 就 不 需要 去 编译 目标 函数 了 , 所 以 整体 执行 速度 就 更 快 。 第 
2 次 Numba 的 运行 结果 等 价 于 我 们 之 前 一 起 使 用 Cython 和 numpy 获得 的 结果 (所 
以 它 几乎 不 需要 做 什么 就 可 以 达到 与 Cython 一 样 快 的 结果 ! ) 。PyPy 有 同样 的 热身 


当 用 Numba 去 调试 时 , 值得 注意 的 是 你 可 以 让 Numba 去 显示 在 一 个 编译 函数 内 部 
的 正在 处 理 的 变量 类 型 。 在 例 7-15 中 , 我 们 可 以 看 到 zs 被 JIT 编译 器 识别 为 一 个 
复杂 的 数组 。 


例 7-15 调试 推导 出 的 类 型 
print ("zs has type:", numba.typeof (zs)) 
array (complex128, 1d, C)) 


Numba 也 支持 其 他 形式 的 自省 ， 比 如 inspect_types， 从 而 让 你 可 以 检查 编译 
代码 去 看 看 类 型 信息 在 哪里 被 推导 出 来 。 如 果 类 型 丢失 了 , 那 你 就 能 细 化 函数 的 表 
达 方 式 去 帮助 Numba 得 到 发 现 更 多 的 类 型 推导 的 机 会 。 


Numba 的 高 级 版 本 ，NumbaPro， 可 以 实验 性 的 用 OpenMP 支持 Prange 并 行 操 
作 符 。 实 验 性 的 GPU 之 处 也 有 。 这 个 项 目的 目标 是 很 轻松 地 把 使 用 numpy 的 更 
慢 的 Python 循环 代码 转换 为 运行 快速 的 代码 , 能 在 CPU 或 GPU 上 运行 ,这 个 可 
以 关注 一 下 。 











































































































7.10 Pythran 


Pythran 是 一 个 把 Python 转换 成 C++ 的 编译 器 ， 作 用 于 包含 对 部 分 numpy 支持 的 
Python 子 集 。 它 表现 得 有 点 像 Numba 和 Cython 一 一 你 注解 一 个 函数 的 参数 ， 接 着 
它 接 管 进一步 的 类 型 注解 和 代码 特 化 。 它 利用 了 矢量 化 可 能 性 和 基于 OpenMP 的 并 
行 化 可 能 性 。 它 只 用 Python2.7 运行 。 
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Pythran 的 一 个 很 有 趣 的 特点 是 它 会 意图 自动 发 现 并 行 化 的 机 会 (例如, 如 果 你 正 
使 用 一 个 map)， 并 把 它 转换 成 并 行 代码 ， 而 不 需要 你 额外 的 工作 量 。 你 也 能 用 
Pragma omp 来 声明 并 行 区 域 ， 在 这 方面 ， 感 觉 它 很 类 似 于 Cython 对 OpenMP 
的 支持 。 


在 幕后 , Pythran 会 企图 把 通常 的 Python 代码 和 numpy 代码 很 激进 地 编译 成 速度 
很 快 的 C++ 代 码 一 一 甚至 比 Cython 的 结果 更 快 。 你 应 该 注意 到 这 个 项 目 是 年 轻 
的 ， 你 可 能 会 遇 到 错误 ;你 也 应 该 注意 到 开发 团队 很 友好 并 倾向 于 在 几 小 时 内 修 
正 错 误 。 


再 看 一 下 例 6-9 中 的 扩散 方程 。 我们 已 经 把 例 程 中 的 计算 部 分 抽取 出 来 放 到 一 个 独 
立 模块 中 ， 这 样 它 就 能 被 编译 成 一 个 二 进 制 库 。Pythran 的 一 个 良好 特点 就 是 我 们 
不 产生 与 Python 不 兼容 的 代码 。 回 想起 Cython, 我 们 不 得 不 用 注解 的 Python 来 创 
建 .pyx 文件 ， 这 样 就 不 能 被 Python 直接 运行 了 。 使 用 Pythran 时 ， 我 们 只 需 添加 
一 行 注释 来 让 Pythran 编译 器 识别 。 这 意味 着 如 果 我 们 删除 了 生成 的 .so 编译 模块 ， 
我 们 就 能 单独 用 Python 来 运行 我 们 的 代码 一 一 这 对 调试 很 有 利 。 


在 例 7-16 中 ， 你 可 以 看 见 我 们 更 早期 的 传 热 方程 的 例子 。evolve 函数 有 一 行 注 
释 来 为 函数 注解 类 型 信息 (因为 它 是 注释 ， 所 以 如 果 你 不 用 Pythran 运行 ，Python 
只 会 忽略 注释 ) 。 当 Pythran 运行 时 , 它 看 到 那 行 注释 并 且 通 过 每 一 个 相关 的 函数 来 
传播 类 型 信息 (很 像 我 们 见 到 的 Shed Skin)。 


例 7-16 添加 一 行 注释 去 注解 evolve0 的 入 口 点 
import numpy as np 
def laplacian (grid): 
return np.roll(grid, +1, 0) + 
nperoLl,(gridy "=1“0). 二 
nparoll(grid, +1ly LT) + 
Npsroll (gridy = 1) 二 "和 rid 










































































#pythran export evolve (float64[][], float) 
def evolve (grid, dt, D=1): 
return grid + dt * D * laplacian (gridqd) 


我 们 可 以 用 pythran diffusion numpy.py 来 编译 这 个 模块 ， 会 输出 
diffusion_numpy.so。 从 一 个 测试 函数 中 , 我 们 可 以 导入 这 个 新 模块 并 且 调 用 evolve。 
在 Ian 的 笔记 本 上 , 不 用 Pythran 的 话 ， 这 个 函数 在 一 个 8192 x 2192 的 网 格 上 运行 
了 3.8 秒 。 用 了 Pythran 后 降低 到 1.5 秒 。 显 然 ， 如 果 Pythran 支持 你 需要 的 函数 的 
话 ， 它 就 能 够 得 到 令 人 印象 深刻 的 性 能 提升 ， 而 几乎 无 须 做 什么 工作 。 


速度 提升 的 原因 是 Pythran 有 它 自 己 的 fol1l 函数 版 本 ， 功 能 更 少 






































因此 它 能 编 
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译 成 复杂 度 更 低 的 运行 可 能 更 快 的 代码 。 这 也 意味 着 它 比 numpy 版 本 (Pythran 的 
作者 说 明 Pythran 只 实现 了 部 分 numpy) 的 灵活 度 要 低 ， 但 是 当 它 工作 时 ， 能 够 胜 
出 我 们 所 见 到 的 其 他 工具 的 运行 结果 。 


现在 让 我 们 把 相同 的 技术 应 用 于 Julia 的 展开 数学 表达 式 的 例子 中 。 只 是 给 
calculate_z 添加 一 行 注解 ， 我 们 就 能 把 运行 时 间 降 低 到 0.29 秒 一 一 比 Cython 
的 结果 慢 一 点 点 。 在 外 循环 的 前 面 添加 一 行 OpenMP 声明 后 把 执行 时 间 降 低 到 0.1 
秒 ， 距 离 Cython 的 最 佳 OpenMP 结果 已 经 不 远 。 注 解 的 代码 在 例 7-17 中 可 见 。 


例 7-17 得 到 OpenMP 支持 的 注解 Pythran 的 calculate z 
#pythran export calculate z(int, complex[], complex[], int[]) 
def calculate z(maxiter, zs, cs, output): 

#omp parallel for schedule (guided) 

for i in range (len(zs)): 


迄今 为 止 我 们 所 见 的 技术 都 涉及 使 用 常规 CPyhon 解释 器 之 外 的 编译 嚣 。 现 在 让 我 
们 看 一 下 PyPy， 它 提供 了 一 个 全 新 的 解释 器 。 



























































7.11 PyPy 


PyPy 是 一 个 Python 语言 的 替代 实现 ， 包 含 了 一 个 可 跟踪 的 即时 编译 器 ， 它 兼容 
Python2.7， 也 有 实验 性 的 Python3.2 版 本 。 


PyPy 是 一 个 普 适 性 的 CPython 替代 品 ， 提 供 了 几乎 所 有 的 内 置 模块 。 该 项 目 包 含 
了 RPython 翻译 工具 链 ， 被 用 来 构建 PyPy (也 可 用 米 构 建 其 他 解释 器 )。PyPy 中 
的 JIT 编译 器 很 高 效 , 能 够 看 到 良好 的 速度 提升 而 几乎 或 完全 不 需要 你 这 边 的 任何 
工作 。 看 看 12.5 节 ， 这 是 一 个 大 规模 PyPy 部 署 成 功 的 故事 。 


PyPy 运行 我 们 的 纯 Python 版 的 Julia 演示 而 不 做 任何 改动 。 使 用 CPython, 它 用 了 
11 秒 ， 而 使 用 PyPy， 它 用 了 0.3 秒 。 这 意味 着 PyPy 取得 了 很 接近 于 例 7-7 中 的 
Cython 的 成 果 ， 而 完全 没有 任何 工作 量 令 人 印象 很 深刻 ! 就 如 我 们 在 讨论 
Numba 时 观察 到 的 那样 ， 如 果 在 同一 会 话 中 再 次 运行 计算 ， 那 么 第 2 次 (以 及 接 
下 来 每 次 ) 会 比 第 1 次 刚 编译 完 那 会 儿 要 跑 得 快 。 

PyPy 支持 所 有 内 置 模块 的 事实 是 很 有 趣 的 这 意味 着 可 以 像 在 CPython 中 一 样 
用 多 进程 方式 工作 。 如 果 你 在 运行 内 置 模块 时 遇 到 问题 ， 你 能 用 多 进程 方式 并 行 地 
去 运行 ， 除 此 之 外 ， 还 会 得 到 你 所 希望 的 速度 提升 。 

PyPy 的 速度 随 着 时 间 而 演进 。 图 7-6 中 的 图 表 来 自 speed.pypy.ord， 会 告诉 你 它 的 
成 熟 度 。 这 些 速 度 测试 反映 了 多 种 多 样 的 用 户 案例 , 不 只 是 数学 运算 。 很 清楚 PyPy 
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提供 了 比 CPython 更 快 的 体验 。 
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7-6 每 一 个 新 版 本 PyPy 提供 了 速度 提升 


7.11.1 垃圾 收集 的 差异 

PyPy 使 用 了 不 同 于 CPython 的 垃圾 收集 器 ， 这 能 导致 你 的 代码 行为 产生 不 明显 的 
改变 。 尽 管 CPython 使 用 引用 计数 ，PyPy 却 使 用 了 修改 后 的 标记 和 清理 方法 来 推 
述 清 除 不 用 的 对 象 。 这 两 者 都 是 对 Python 规范 的 具体 实现 ,你 只 需 注 意 当 交换 时 ， 
需要 做 一 些 代码 改动 。 


一 些 在 CPython 中 见 到 的 编码 方式 依赖 于 引用 计数 的 行为 一 一 尤其 是 冲刷 文件 (如 
果 这 些 文件 打开 后 被 写 和 了， 而 不 去 显 式 地 关闭 文件 )。 使 用 PyPy， 相同 的 代码 可 
以 运行 , 但 是 对 文件 的 更 新 可 能 会 推迟 冲刷 到 磁盘 上 , 直到 垃圾 收集 器 下 次 运行 时 
才 会 被 冲刷 。 一 种 既 能 使 用 PyPy， 又 能 使 用 Python 工作 的 替代 方式 就 是 用 with 来 
使 用 上 下 文 管理 器 去 打开 和 自动 关闭 文件 。 在 PyPy 的 网 站 上 的 “PyPy 与 CPython 
的 差异 ” 那 页 列 出 了 细节 ， 垃 圾 收集 器 的 实现 细节 在 网 站 上 也 有 。 


7.11.2 运行 PyPy 并 安装 模块 

如 果 你 从 没有 运行 过 一 种 替代 的 Python 解释 器 ,你 可 能 会 受益 于 一 个 短小 的 例子 。 
假设 你 已 经 下 载 并 解压 出 PyPy， 你 现在 会 得 到 一 个 包含 bin 目录 的 文件 夹 结构 。 
按 例 7-18 所 示 运 行 它 来 启动 PyPy。 

















152 第 7 章 ， i 
异步 社区 会 员 woshigedushuren(13120020972) 专 享 尊重 版 权 


例 7-18 运行 PyPy 来 看 看 它 实 现 了 Python 2.7.3 

$ ./bin/pypy 

Python 2.7.3 (84efb3ba05fl, Feb 18 2014, 23:00:21) 

[PyPy 2.3.0-alpha0 with GCC 4.6.3] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 
And now for something completely different: `” <arigato> (not thread-safe, put 
well, nothing is)"'" 


注意 到 PyPy 作为 Python 2.7.3 运行 。 现在 我 们 需要 设置 pip, 并 想 要 安装 ijpython 
(注意 IPython 以 我 们 曾 见 过 的 相同 的 Python 2.7.3 的 编译 包 启 动 )。 如 果 你 不 求助 
于 现成 的 发 布 包 或 包 管理 器 来 安装 pip, 这 些 显示 在 例 7-19 中 的 步骤 和 你 可 能 已 经 
用 CPython 做 过 的 步骤 一 模 一 样 。 


例 7-19 为 PyPy 安装 pip 用 以 安装 第 三 方 模块 ， 比 如 IPython 























$ mkdir sources # make a local download directory 

$ cd sources 

# fetch distribute and pip 

$ curl -0 http://python-distribute.org/distribute setup.py 

$ curl -0 https://raw.github.com/pypa/pip/master/contrib/get-pip.py 
# now run the setup files for these using pypy 
$ ../bin/pypy ./distripute setup.py 


$ ../bin/pypy get-pip.py 

$ ../bin/pip install ipython 

$ ../bin/ipython 

Python 2.7.3 (84efb3ba05f1l, Feb 18 2014, 23:00:21) 


Type "copyright", "credits" or "license" for more information. 


IPython 2.0.0-An enhanced Interactive Python . 





2 -> Introduction and overview of IPython's features. 
Squickref -> Quick reference. 

Help -> Python's own help systenm. 

object? -> Details about '‘'object', use 'object??' for extra details. 


注意 PyPy 对 像 numpy 之 类 的 项 目的 支持 非 同 寻常 (有 一 个 经 由 cpyext 的 桥接 
层 ， 但 是 它 太 慢 了 ， 以 致 于 对 numpy 没什么 用 ) ， 所 以 不 要 期 待 PyPy 对 numpy 做 
强力 支持 。PyPy 的 确 有 一 个 实验 性 的 numpy 移植 版 本 ， 称 为 “numpypy”( 安 装 指 
导 在 Ian 的 博客 上 )， 但 是 当前 它 没有 提供 任何 有 用 的 速度 优势 。 


如 果 你 需要 其 他 包 ， 只 要 是 纯 Python 的 ， 就 可 能 安装 上 ， 而 任何 依赖 于 C 扩展 库 
的 就 可 能 无 法 有 效 工作 。PyPy 没有 引用 计数 的 垃圾 收集 器 ， 任 何 为 CPython 编译 



























































Q@ 本 书写 作 期 间 它 没有 提供 任何 有 用 的 速度 优势 。 
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的 包 会 使 用 支持 CPython 垃圾 收集 器 的 库 调 用 。PyPy 有 























个 变通 方法 ， 但 是 会 增 














加 很 多 开销 。 在 实践 中 ， 去 尝试 强迫 让 更 老 的 扩展 库 直接 和 PyPy 一 起 工作 是 无 效 














的 。PyPy 的 建议 就 是 如 果 有 可 能 就 尝试 移 除 任何 C 扩展 代码 ( 它 或 许 只 是 用 来 让 
Python 代码 运行 更 快 ， 现 在 那 是 PyPy 的 工作 了 )。PyPy 的 维基 维护 了 一 串 可 兼容 





的 模块 列表 。 












































PyPy 的 另 一 个 缺点 是 它 使 用 了 很 多 内 存 。 每 个 发 布 版 在 这 方面 都 有 改良 ， 但 在 实 























践 中 , 它 可 能 还 是 使 用 了 比 CPython 更 多 的 内 存 。 然 而 内 存 相对 便宜 ， 所 以 用 来 为 
性 能 提升 做 交换 还 是 有 意义 的 。 一 些 用 户 也 已 报道 了 在 使 用 Pypy 时 有 更 少 的 内 存 
占用 。 如 果 这 仍然 对 你 很 重要 ， 那 就 用 具有 代表 性 的 数据 去 做 实验 。 


PyPy 受 限 于 全 局 解释 器 锁 ， 但 是 开发 团队 正在 搞 一 个 叫 作 软件 事务 内 存 (STM) 的 


项 目 来 企图 移 除 GIL 的 必要 性 .STM 有 
应 用 于 内 存 访 问 。 如 果 在 相同 
的 目标 是 能 够 让 高 并 发 系统 有 一 种 并 发 控制 的 方式 ， 在 和 运算 上 丧失 了 一 些 效 率 ， 但 
是 通过 不 强迫 用 户 处 理 并 发 存 取 控 制 的 所 有 方 方 画 


推荐 的 剖析 器 工具 是 jitviewer 和 logparser。 


7.12 ”什么 时 候 使 用 每 种 工具 
























































的 内 存 空 














站 上 发 生 Y 


中 








一 点 像 数 据 库 事务 。 它 是 一 个 并 发 控制 机 制 ， 





Fx mr 


突 ， 它 能 够 回 深 改 动 。 集 成 STM 























] 








i 来 提高 程序 员 的 生产 率 。 








如 果 你 正 工作 于 数值 处 理 的 项 目 ， 那 么 这 些 技 术 中 的 每 一 种 可 能 都 对 你 有 用 。 表 


7-1 总 结 了 主要 选项 。 











如 果 你 的 问题 适用 于 可 支持 函数 的 严格 范围 内 ，Pythran 大 概 在 numpy 问题 上 提供 
了 最 佳 的 性 能 提升 , 却 花 费 最 少 的 工作 量 。 它 也 提供 了 一 些 简单 的 OpenMP 并 行 项 ， 
这 也 是 一 个 相对 年 轻 的 项 目 。 
























































表 7-1 可 选 的 编译 器 总 结 
Cython Shed Skin Numba Pythran PyPy 

成 熟 度 Y Y Y 
广泛 使 用 性 Y _ _ _ 国 
支持 Numpy Y Y Y 
没有 间断 的 代码 改动 Y Y 

需要 有 C 的 知识 Y a a = 
支持 OpenMP Y 
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Numba 可 能 提供 了 快速 的 性 能 提升 ， 而 几乎 不 需要 什么 工作 量 ， 但 是 它 也 会 有 在 
你 的 代码 上 可 能 不 会 工作 得 很 好 的 限制 。 这 也 是 一 个 相对 年 轻 的 项 目 。 

Cython 可 能 为 最 广泛 的 问题 集 提 供 了 最 好 的 结果 ， 但 是 它 的 确 需 要 更 多 的 工作 量 
和 交 额 外 的 “支持 税 ”， 这 要 归 因 于 它 混 合 使 用 了 Python 和 C 注解 。 





妇 


荆 









































果 你 不 使 用 numpy 或 其 他 难以 移植 的 C 扩展 ，PyPy 是 一 个 强力 的 选择 。 


如 果 你 想 要 编译 成 C 并 且 不 使 用 numpy 或 其 他 外 部 库 ，Shed Skin 可 能 是 有 用 的 。 











如 果 你 正在 部 署 一 个 4 























E 产 工具 ， 那 么 你 可 能 想 要 坚持 使 用 型 














E 解 良好 的 工具 一 一 


Cython 应 该 是 你 的 主要 选择 ， 你 可 能 想 要 查阅 在 12.2 节 。PyPy 也 被 用 于 产品 设 


置 (看 看 12.5 节 )。 














如 果 你 工作 于 少量 的 数值 处 理 需 求 , 注意 Cython 的 缓存 接口 接受 arrary .array 


和 矩阵 一 一 这 是 一 个 把 

















块 数据 传 给 Cython 的 简单 方法 ， 可 用 来 做 快速 的 数值 处 理 
而 不 用 添加 numpy 作为 项 目 依赖 。 




















整体 而 言 ，Pythran 和 Numba 是 年 轻 但 是 很 有 前 景 的 项 目 ， 而 Cython 十 分 成 熟 。 


PyPy 到 现在 被 视 为 相对 成 熟 ， 汶 
在 2014 年 的 一 堂 Ian 的 课 上 , 一 个 有 能 力 的 学 9 
































F 且 应 该 一 定 要 有 长 期 的 过 程 来 评估 。 
E 实 现 了 Julia 算法 的 C 版 本 ， 并 且 





失望 地 看 到 它 执行 得 比 他 的 Cython 版 本 要 慢 。 他 透露 在 64 位 机 器 上 使 用 了 32 位 


浮 点 数 




















这 要 比 在 64 位 机 器 上 使 用 64 位 双 精 度数 运行 得 慢 。 尽管 该 学 生 是 一 个 





好 的 C 程序 员 ,但 他 不 知道 这 会 牵涉 到 执行 速度 上 的 代价 。 他 改变 了 代码 ,他 的 C 
动 生成 的 Cython 版 本 要 短小 得 多 ， 却 跑 出 了 大 概 一 样 的 速 

















版 本 代码 尽管 明显 比 自 






































度 。 编 写 原始 的 C 版 本 ， 对 比 速度 ， 并 且 想 出 修正 方案 ， 这 一 系列 行为 要 比 一 上 
来 就 用 Cython 花费 更 长 的 时 间 。 


这 只 是 个 趣闻 轶 事 ， 我 们 没有 建议 说 Cython 会 生成 最 好 的 代码 ， 并 且 胜 任 的 C 程 


这 
序 员 也 能 够 想 出 怎样 让 他 们 的 代码 比 Cython 生成 的 版 本 运行 得 更 快 。 然 而 ， 值 得 
注意 的 是 ， 假 想 手写 C 代码 会 比 由 Python 转换 成 的 代码 更 快 也 不 靠 谱 。 你 一 定 要 
始终 做 基准 测试 并 且 使 用 证 据 来 做 决定 。C 编译 器 很 擅长 把 代码 转换 为 相对 高 效 的 























机 器 码 ， 而 Python 很 擅长 让 你 用 更 易于 理解 的 语言 来 表达 你 的 问题 一 一 明智 地 结 








合 这 两 种 力量 。 


7.12.1 其 他 即将 出 现 的 项 目 
PyData 编译 器 页 列 出 了 一 系列 高 性 能 编译 工具 。Theano 是 一 个 更 高 级 的 语言 , 多 
许 使 用 高 维 数组 上 的 数学 操作 符 表达 式 。 它 与 numpy 紧密 结合 ， 并 且 能 为 CPU 
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和 GPU 导出 编译 过 的 代码 。 有 趣 的 是 ， 它 已 经 受到 了 深度 学 习 AI 社区 的 青睐 。 
Parakeet 集中 于 涉及 密集 numpy 数组 的 编译 运算 ， 使 用 Python 的 子 集 。 它 也 支 
持 GPU。 


PyViennaCL 是 一 个 Python 绑 定 到 ViennaCL 的 数值 计算 和 线性 代数 库 。 它 使 用 
numpy, 支持 GPU 和 CPU。ViennaCL 用 C++ 编写 , 为 CUDA、OpenCL 和 OpenMP 
生成 代码 。 它 支 持 密 集 和 稀 玻 的 线性 代数 运算 、BLAS 和 求解 器 。 


Nuitka 是 一 个 以 替代 通常 的 CPython 解释 器 为 目标 的 Python 编译 器 ， 具 有 创建 编 
译 过 的 可 执行 程序 的 选项 。 它 支持 Python2.7 的 全 部 ， 尽 管 在 我 们 的 测试 中 ， 它 没 
有 为 我 们 普通 的 Python 数值 测试 产生 任何 明显 的 性 能 提升 。 


Pyston 是 该 领域 最 新 的 加 入 者 。 它 使 用 了 LLVM 编译 器 ， 被 Dropbox 支持 。 由 于 
缺少 对 扩展 模块 的 支持 ， 它 可 能 遭受 与 PyPy 所 面临 的 同样 的 问题 ， 但 是 有 项 目 计 
划 去 解决 这 个 问题 。 如 果 这 个 问题 得 不 到 解决 ， 对 numpy 的 支持 就 不 现实 。 


在 我 们 的 社区 里 ， 我 们 很 幸运 拥有 各 种 各 样 可 选 的 编译 器 。 虽 然 它 们 都 各 有 取 
舍 ， 但 它们 也 提供 了 许多 能 力 ， 这 样 复 杂 的 项 目 就 能 充分 利用 CPU 和 多 核 架 构 
的 力量 。 


7.12.2 ”一 个 图 像 处 理 单元 (GPU) 的 注意 点 

GPU 在 当前 是 个 性 感 的 技术 ,我们 选择 了 把 涉及 它们 的 话题 拖 后 直到 至 少 下 一 版 。 
这 是 因为 该 领域 在 飞速 变化 , 很 可 能 我 们 现在 所 说 的 所 有 东西 到 我 们 读 到 它 时 已 经 
改变 了 。 关 键 的 是 ， 它 不 只 是 让 你 改变 所 写 的 代码 行 ， 而 是 随 着 架构 的 演进 ， 你 可 
能 要 彻底 改变 解决 问题 的 方式 。 


Ian 工作 于 一 个 物理 学 问题 ,使 用 Python 和 PyCUDA， 用 了 一 年 的 NVIDIA GTX 
480 GPU。 到 年 底 为 止 驾驭 了 GPU 的 全 部 能 力 , 并 且 系 统 比 在 双核 机 器 上 运行 相 
同 的 函数 快 了 整整 25 倍 。 双 核 的 变 体 用 C 写成 ， 使 用 了 一 个 并 行 库 ， 为 了 数据 
处 理 ，GPU 的 变 体 大 部 分 由 PyCUDA 所 包装 的 CUDA 的 C 所 表达 。 很 快 在 那 之 
后 ，GTX 5xx 系列 的 GPU 问世 了 ， 许 多 应 用 于 4xx 系列 的 优化 就 发 生 了 改变 。 
大 概 耗费 一 年 的 工作 最 终 被 放弃 了 ,还 是 倾向 于 运行 在 CPU 上 的 更 易于 维护 的 C 
的 解决 方案 。 


这 是 一 个 孤立 的 例子 ， 但 是 它 强调 了 写 底层 CUDA (或 OpenCL) 代码 的 危险 。 在 
GPU 之 上 的 提供 了 更 高 级 功能 的 库 可 能 已 得 到 了 广泛 使 用 〈 例 如 ， 提 供 了 图 像 分 
析 或 视频 转 码 接口 的 库 ) ， 我 们 规劝 你 去 考虑 这 些 库 ， 而 不 是 去 直接 为 GPU 编码 。 


以 为 你 管理 GPU 为 目标 的 项 目 包括 Numba、Parakeet 和 Theano。 
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7.12.3 ”一 个 对 未 来 编译 器 项 目的 展望 

在 当前 的 可 选 的 编译 器 之 中 ， 我 们 已 经 有 一 些 强大 的 技术 组 件 。 就 个 人 而 言 ， 我 们 
想 要 看 到 Shed Skin 的 注解 引擎 变 得 广泛 适用 , 这 样 它 就 能 和 其 他 工具 一 起 工作 一 一 
例如 ， 当 学 用 Cython (尤其 当 使 用 numpy 时 ) 时 ， 产 生 一 个 兼容 Cython 的 输出 来 
让 学 习 曲 线 变 平滑 。Cython 是 成 熟 的 并 且 紧 密集 成 人 Python 和 numpy, 如 果 学 习 曲 
线 和 对 支持 的 需求 不 那么 可 县 ， 那 么 更 多 人 会 使 用 它 。 

更 长 期 的 愿望 就 是 看 到 一 些 类 似 Numba 和 PyPy 的 解决 方案 在 常规 Python 代码 和 
numpy 代码 上 都 提供 JIT 的 解决 方案 。 当 前 没有 一 个 解决 方案 可 用 , 一 个 解决 了 这 
个 问题 的 工具 将 会 是 替代 我 们 当前 都 在 使 用 的 常规 CPython 解释 器 的 强 有 力 的 竞 
争 者 ， 而 不 需要 开发 者 修改 他 们 的 代码 。 


友善 的 竞争 和 对 新 思路 的 巨大 市 场 真 的 会 让 我 们 的 生态 系统 变 成 一 个 富足 的 地 方 。 




































































7.13 外 部 函数 接口 


有 时 候 自 动 化 解决 方案 不 起 作用 ， 你 需要 自己 写 一 些 定制 的 C 或 Fortran 代码 。 这 
是 有 可 能 的 ， 因 为 编译 手段 没有 找到 一 些 潜在 的 优化 ， 或 者 因为 你 想 要 利用 在 
Python 中 没有 的 库 或 语言 特色 。 在 所 有 这 些 情 况 中 ， 你 会 需要 使 用 外 部 函数 接口 ， 
让 你 去 访问 用 其 他 语言 编写 和 编译 的 代码 。 


在 本 章 其 余部 分 我们 试图 用 一 个 外 部 库 来 解决 2 阶 扩散 方程 ， 就 以 我 们 在 第 6 章 ” 
中 所 做 的 相同 的 方式 。 显示 在 例 7-20 中 的 这 个 库 人 代码， 能够 代表 你 已 经 安装 的 库 ， 
或 者 一 些 你 已 经 编写 的 代码 。 我们 要 看 的 方法 发 挥 了 巨大 的 作用 , 来 提取 出 你 的 部 
分 代码 并 把 它们 挪 到 另 一 种 语言 中 去 ， 以 便 做 很 目标 化 的 基于 语言 的 优化 。 


例 7-20 解决 2 阶 扩散 问题 的 C 代码 示例 
void evolve (double in[] [512], double out[] [512], double D, double dt) { 
Tr Ty 
double laplacian; 
for (i=1l; i<511; i++) { 
bc 60 Bs RS I By A ee | 
laplacian = in[i+1]I[ 
a 
out [二 -将 ] [FD dt * Laplacians 
} 
} 








































































































中 N 


} 


@ 为 了 简化 ， 我 们 不 会 实现 边界 条 件 。 
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为 了 使 用 这 个 代码 ， 我 们 必须 把 它 编译 成 一 个 创建 了 .so 文件 的 共享 模块 。 我 们 能 
使 用 gcc (或 任何 其 他 C 编译 器 ) 通过 以 下 步骤 来 做 : 





$ gcc -03 -std=gnu99 -c diffusion.c 
$ gcc -shared -o diffusion.so diffusion.o 


我 们 能 把 这 个 最 终 的 共享 库 文件 放置 于 可 以 被 我 们 的 Python 代码 所 访问 的 任何 地 
方 ， 但 是 标准 *nix 组 织 把 共享 库存 放 于 /usr/lib 和 /usr/local/lib。 























7.13.1 ctypes 
cPython 中 最 基本 的 外 部 函数 接口 是 通过 ctypes 模块 。 这 个 模块 的 特性 就 是 具 


有 很 多 限制 性 























让 


你 要 负责 做 一 切 ， 并 且 需 要 用 一 段 时 间 来 确认 你 是 按 顺 序 做 了 














这 一 切 。 这 个 额外 级 别 的 复杂 性 在 我 们 的 ctypes 扩散 版 本 中 得 到 了 证 明 ， 显 示 
于 例 7-21 中 。 


例 7-21 ctypes 2 阶 扩散 代码 


import ctypes 


grid shape (SL27- 工人) 
_diffusion = ctypes.CDLL("../diffusion.so") # © 


# Create references to the C types that we will need to simplify future code 
TYPE_INT = ctypes.c int 

TYPE DOUBLE = ctypes.c double 

TYPE DOUBLE SS = ctypes.POINTER(ctypes.POINTER(ctypes.c double)) 





# Initialize the signature of the evolve function to: 

# void evolve (int, int, double**, double**, double, double) 
diffusion.evolve.argtypes = | 

TYPE _ INT, 
TYPE _ INT, 
TYPE DOUBLE SS， 
TYPE DOUBLE SS， 
TYPE DOUBLE, 
TYPE DOUBLE, 





] 





diffusion.evolve.restype = None 


def evolve (grid, out, dt, D=1.0): 
# First we convert the Python types into the relevant C types 





这 很 依赖 于 cPython。 其 他 版 本 的 Python 可 能 有 它们 自己 版 本 的 ctypes， 可 能 以 很 不 同 的 方式 工作 。 
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CX TYPE_INT(grid_ shape[0]) 

CY TYPE _INT(griq_ shape [1]) 

cdt = TYPE _ DOUBLE (dt) 

cD = TYPE DOUBLE (D) 

pointer grid = grid.ctypes.data as(TYPE DOUBLE SS) # ©@ 
pointer out = out.ctypes.data as (TYPE DOUBLE SS) 








# Now we can call the function 
_diffusion.evolve(cX, cY, pointer grid, pointer out, cD, cdt) # © 


@ 这 类 似 于 导入 qiffusion.so 库 。 
@ grid 和 out 都 是 numpy 数组 。 
@ 我 们 最 终 做 完 所 有 必要 的 步 又 并 能 直接 调用 C 函数 。 


我 们 做 的 第 一 件 事 就 是 “导入 ”我 们 的 共享 库 。 通 过 ctypes .CDLI 调用 来 做 。 在 这 
行 中 ， 我 们 可 以 声明 Python 能 够 访问 的 任何 共享 库 (例如 ，ctypes-opencv 模块 
装载 1ibcv .so 库 )。 由 此 ， 我 们 得 到 了 一 个 _diffusion 对 象 ， 包 含 了 共享 库 所 
含有 的 所 有 成 员 。 在 这 个 例子 中 ,diffusion.so 只 包含 了 一 个 函数 volve, 
这 不 是 一 个 对 象 的 属性 。 如 果 diffusion.so 中 含有 许多 函数 和 属性 ， 我 们 能 通过 
_diffusion 对 象 来 访问 它们 全 部 。 


无 论 怎样 ， 即 使 diffusion 对 象 里 有 可 调用 的 evolve 函数 ， 却 不 知道 怎样 来 
使 用 它 。C 是 静态 类 型 的 ,并且 函 数 有 很 具体 的 签名 。 为 了 恰当 地 用 evolve 函数 
来 工作 ， 我 们 必须 显 式 地 设置 输入 参数 类 型 和 返回 类 型 。 当 用 Python 接口 串 行 地 
开发 库 , 或 者 当 处 理 一 个 快速 变化 的 库 时 , 这 就 会 变 得 很 枯燥 。 而 且 , 既然 ctypes 
不 能 检查 你 所 给 的 是 否 是 正确 的 类 型 , 一 旦 你 犯错 , 你 的 代码 就 可 能 默默 地 失败 或 
发 生 段 错误 。 


而 且 除 了 要 设置 参数 和 函数 对 象 的 返回 类 型 ， 我 们 也 需要 小 心地 转换 使 用 的 数据 
(这 叫 “ 类 型 转换 ”)。 我 们 传送 给 函数 的 每 一 个 参数 必须 很 小 心地 转换 为 本 地 的 C 
类 型 。 有 时 这 事 会 变 得 相当 诡异 ， 因 为 Python 的 变量 类 型 很 灵活 。 例 如 ， 如 果 我 
们 有 numl = le5， 我们 就 知道 这 是 一 个 Python 的 浮 点 数 ， 因 此 我 们 应 该 使 用 
ctypes.c_float。 男 一 方面 对 于 num2 = 1e300 来 说 ， 我 们 就 不 得 不 使 用 
ctype.c_qouple， 因 为 它 对 标准 C 浮 点 数 会 有 溢出 。 


那 就 是 说 ,numpy 给 它 的 数组 提供 了 一 个 .ctypes 属性 来 使 它 易 与 ctypes 兼容 。 
如 果 numpy 没有 提供 这 个 功能 ， 我 们 将 不 得 不 把 一 个 ctypes 数组 初始 化 成 正确 
类 型 ， 接 着 找到 我 们 原始 数据 的 位 置 并 让 我 们 的 新 ctypes 对 象 指向 那儿 。 
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整 生 
十 口 
区 当 你 正在 把 一 个 对 象 转换 为 一 个 ctype 对 象 时 , 除非 那个 对 象 实现 
全、 了 一 个 缓存 (就 如 array 模块 、numpy arrays、cStringIO 等 
那样 )， 不 然 你 的 数据 将 会 被 找 贝 进 新 对 象 中 。 在 把 一 个 整数 转换 为 
浮 点 数 的 情况 下 ,这 并 不 会 对 你 的 代码 性 能 有 什么 影响 .无论 如 何 ， 
如 果 你 正在 转换 一 个 很 长 的 Python list， 这 会 导致 很 大 的 性 能 惩罚 ! 
在 这 些 情 况 下 ， 使 用 array 模块 ， 或 numpy array， 或 者 干脆 用 
struct 模块 构建 你 自己 的 缓存 对 象 ， 这 些 都 会 有 帮助 。 但 是 这 样 做 会 
伤害 你 的 代码 可 读 性 ， 因 为 这 些 对 象 一 般 没 有 它们 的 原生 Python 对 
应 物 那 样 灵活 。 


如 果 你 必须 要 给 库 传 送 一 个 复杂 的 数据 结构 ,情况 就 会 变 得 愈加 复杂 。 例如， 如 果 
你 的 库 期 待 一 个 代表 空间 中 的 点 的 C 结构 ， 有 x 和 y 属性 ， 你 不 得 不 定义 : 
from ctypes import Structure 


class cPoint (Structure): 
fi1elds = (xe Colin) (VY C Lnt) 


























在 这 个 点 上 ， 你 能 通过 初始 化 一 个 cPoint 对 象 (例如 ,point = cPoint (10， 
5) ) 来 开始 创建 一 个 兼容 C 的 对 象 。 这 不 是 一 项 有 可 怕 工 作 量 的 工作 ， 但 是 却 会 
变 得 乏味 , 并 且 产 生 一 些 代码 碎片 。 如 果 一 个 新 版 本 库 发 布 了 , 稍微 改 了 下 结构 体 ， 
会 发 生 什 么 事 呢 ? 这 会 让 你 的 代码 很 难 维护 , 一 般 会 导致 僵硬 的 代码 , 开发 者 会 决 
定 从 不 去 更 新 正在 被 使 用 的 低层 库 。 


基于 这 些 理由 ， 如 果 你 已 经 很 好 地 理解 C 并 且 想 要 能 够 微调 接口 的 每 一 方面 ， 使 
用 ctypes 模块 是 很 正确 的 。 它 有 很 好 的 可 移植 性 ,因为 它 是 标准 库 的 一 部 分 ， 如 
果 你 的 任务 简单 , 它 就 提供 简单 的 解决 方案 。 要 仔细 一 点 , 因为 ctypes 解决 方案 
的 复杂 性 〈 类 似 低层 解决 方案 ) 会 很 快 变 得 难以 管理 。 


7.13.2 cffi 
意识 到 ctypes 有 时 会 相当 难 用 ，cffi 意图 简化 程序 员 所 使 用 的 许多 标准 运算 。 
它 用 一 个 内 部 的 C 解析 器 来 做 ， 能 够 理解 函数 和 结构 体 定义 。 


作为 结果 ， 我 们 能 仅仅 写 出 C 代码 来 定义 我 们 希望 使 用 的 库 的 结构 体 ， 接 着 
cffi 将 会 为 我 们 做 所 有 重量 级 的 工作 : 导入 模块 并 确认 我 们 给 结果 函数 声明 了 
正确 的 类 型 。 事 实 上 ， 如 果 有 库 的 源码 ， 这 个 工作 几乎 微不足道 ， 因 为 头 文件 
(用 .h 结尾 的 文件 ) 会 包含 我 们 所 需 的 所 有 相关 定义 。 例 7-22 演示 了 cffi 版 本 
的 2 阶 扩散 代码 。 
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例 7-22 cffi 的 2 阶 扩散 代码 


from cffi import FFI 


ffi = FFI() 
ffi.cdef (r'"''"' 
void evolvel 
int Nx, int Ny, 
double **in, double **out, 
double D, double dt 
);+#©@ 
站 
lib = ffi.dlopen("../diffusion.so") 


def evolvel(grid, dt, out, D=1.0): 
X,Y = grid shape 
pointer grid = ffi.cast('double**', grid.ctypes.data) # 外 
pointer out = ffi.cast('double**', out.ctypes.data) 
lib.evolve(X, Y, pointer grid, pointer out, D, dt) 


@ 这 个 定义 的 内 容 能 被 正常 地 从 你 正在 使 用 的 库 手册 中 ， 或 者 通过 查看 库 的 头 文 
件 获 取 。 


@ 尽管 我 们 还 是 需要 把 非 本 地 Python 对 象 做 类 型 转换 来 使 用 我 们 的 C 模块 , 语法 
对 那些 有 C 经 验 的 人 来 说 是 很 熟悉 的 。 


在 前 面 的 代码 中 ,我 们 可 以 把 cffi 的 初始 化 过 程 看 作 两 个 步 又。 首先 ， 我 们 创建 
了 一 个 FFI 对 象 并 且 给 出 我 们 所 需 的 全 局 C 声明 。 除 了 函数 签名 以 外 ， 还 可 以 包 
括 数据 类 型 。 接 着 ,我 们 使 用 alopen 把 一 个 共享 库 导入 它 自 己 的 名 字 空 间 , 这 是 
一 个 FFI 的 子 空 间 。 这 意味 着 我 们 能 够 装载 两 个 具有 相同 evolve 函数 的 库 ， 分 
别 赋 给 变量 1ibl 和 1ib2， 然 后 独立 地 使 用 它们 (这 对 于 调试 和 剖析 很 给 力 )。 


除了 简单 地 导入 C 共享 库 以 外 , cffi 允许 你 只 写 C 代码 , 然后 使 用 verify 函数 
来 即时 编译 。 这 有 很 多 即时 收益 一 一 你 能 够 简单 地 把 你 的 一 小 部 分 代码 用 C 来 重 
写 ， 而 不 去 调用 独立 的 C 库 的 庞大 的 机 制 。 可 做 替换 的 是 ， 如 果 有 一 个 你 希望 使 
用 的 库 ， 但 是 要 求 用 一 些 C 的 胶水 代码 来 让 接口 完美 工作 ， 你 可 以 按 例 7-23 显示 
的 那样 只 是 把 它 和 你 的 cffi 代码 内 联 起 来 从 而 让 一 切 都 处 于 一 个 中 心 化 的 位 置 
上 。 除 此 之 外 ,既然 代码 是 即时 编译 的 ， 你 可 以 给 你 需要 编译 的 每 块 代码 声明 编译 
指令 。 需要 注意 的 是 , 无 论 如 何 , 当 每 次 verify 图 数 运行 去 做 实际 的 编译 时 ， 这 
种 编译 方式 会 有 首次 惩罚 。 


例 7-23 内 联 2 阶 扩散 代码 的 c 重 


ffi = FFI() 
ffi.cdef (r"'"'' 
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void evolLve( 
int Nx, int Ny, 
double **in, double **out, 
double D, double dt 
); 
"TD) 
lib = ffi.verify(r'"'" 
void evolvel(int Nx, int Ny, 
double in[] [Ny], double out[] [Ny], 
double D, double dt) { 
ho ey 河 忆 
double laplacian; 
for (i=1l; i<Nx-1; i++) { 
for (j=1; j<Ny-1; j++) { 
laplacian = in[i+1] [j] + in[i-1][j] + in[i][j+1] + in[i][j-1]\ 
三 池 ] [j]; 
out[i][j] = in[i][j] + D* dt * laplacian; 
} 
} 
''', extra compile args=["-03",]) # © 


@ 既 使 我 们 正在 即时 编译 这 段 代码 ， 我 们 也 可 以 提供 相关 的 编译 标志 。 


Verify 功能 的 另 一 个 好 处 是 它 与 复杂 的 cdef 声明 交互 得 很 好 。 例 如 ， 如 果 我 们 
正 要 使 用 一 个 具有 很 复杂 结构 体 的 库 , 但 是 只 是 想 使 用 它 的 一 部 分 , 我 们 能 够 使 用 
部 分 结构 定义 。 为 此 ， 我 们 在 ffi .cgdef 中 的 结构 体 定义 中 添加 一 个 …， 并 且 在 后 
面 的 verify 中 #include 相关 的 头 文件 。 


例如 ， 假 设 我 们 正 使 用 一 个 有 complicated.h 头 文件 的 库 ， 其 中 包含 了 一 个 类 
似 于 下 面 的 结构 体 : 


struct Point { 
double x; 
double y; 
bool isActive; 
Char :Kid 







































































int num times visited; 


} 


如 果 我 们 只 需要 关心 x 和 yy 的 属性 , 我 们 能 写 一 些 简 单 的 cffi 代码 , 只 关心 下 面 
这 些 值 : 


from cffi import FFI 














ffi = FFI() 
ff odef (EY 
Struect, ‘Point 4 





162 第 7 章 
步 社 区 会 员 woshigedushuren(13120020972) 专 享 尊重 版 权 


double x; 
double y; 


}; 
struct Point do calculation(); 
WA 
lib = ffi.verifyl(r""" 
#include <complicated.h> 
| 


我 们 能 运行 comlicated.n 库 的 do_calculation 函数 ， 并 且 返 回 给 我 们 一 个 
Point 对 象 ， 它 的 x 和 y 属性 是 可 以 访问 的 。 这 种 移植 性 很 惊人 ， 因 为 代码 在 具有 
不 同 的 Point 实现 的 系统 上 都 能 很 好 地 工作 , 或 者 当 complicated.h 的 新 版 本 出 
来 后 也 能 很 好 地 工作 ， 只 要 它们 都 有 x 和 y 属性 就 可 以 。 


所 有 这 些 优点 让 cffi 成 为 在 Python 中 用 C 代码 来 工作 时 的 一 个 很 优秀 的 工具 。 
它 比 ctypes 简单 很 多 , 然而 当 直接 和 外 来 函数 接口 一 起 用 时 , 还 是 给 予 了 你 想 要 
的 等 量 的 细 粒 度 控制 。 


7.13.3 f2py 
对 于 许多 科学 应 用 来 说 ，Fortran 还 是 一 个 黄金 标准 。 尽 管 它 作为 一 种 通用 语言 的 
日 子 已 经 结束 了 , 但 它 还 是 有 很 多 优点 来 让 编写 矢量 运算 变 得 容易 ,并 且 运 行 相当 
快 。 另 外 ， 有 很 多 性 能 数学 库 用 Fortran 编写 (LAPACK、BLAS 等 )， 并 且 能 够 使 
用 在 你 的 Python 代码 中 的 性 能 关键 部 分 。 


对 于 这 种 情况 ，£2py 提供 了 一 个 非常 简单 的 把 Fortran 代码 导入 Python 的 方法 。 
因 于 Fortran 的 显 式 类 型 ， 这 个 模块 能 做 得 很 简单 。 既 然 解析 和 理解 类 型 是 简单 
的 ，f£2py 就 能 容易 地 创建 一 个 CPython 模块 ， 该 模块 依靠 C 中 的 本 地 外 部 函数 支 
持 来 使 用 Fortran 代码 。 这 意味 着 当 你 要 使 用 £2py 时 ， 你 其 实在 自动 生成 一 个 知 
道 怎 样 使 用 Fortran 代码 的 C 模块 | 这 样 的 结果 就 是 ， 许 多 在 ctypes 和 cffi 的 
方案 中 与 生 俱 来 的 混 消 就 不 存在 了 。 


在 例 7-24 中 ， 我 们 能 看 到 一 些 用 于 解决 扩散 方程 的 与 f2py 兼容 的 代码 。 事 实 上 ， 
所 有 本 地 Fortran 代码 都 与 £2py 兼容 。 无 论 如 何 ， 函 数 参 数 注解 (由 !f2py 为 前 
级 的 语句 ) 简化 了 最 终 的 Python 模块 并 且 会 生成 易于 使 用 的 接口 。 注 解 隐 式 地 告 
诉 £2py 我 们 是 否 意图 让 一 个 参数 只 用 于 输出 还 是 只 用 于 输入 , 是 让 我 们 就 地 修改 
还 是 完全 隐 式 地 修改 。 隐 式 类 型 对 于 vectors 的 大 小 尤其 有 用 : 当 Fortran 可 能 
需要 让 那些 数字 变 显 式 时 ， 我 们 的 Python 代码 已 经 有 这 个 信息 在 手 上 了 。 当 我 们 
把 类 型 设 为 “ 隐 式 ”时 , £2py 能 够 自动 为 我 们 填充 那些 值 , 基本 上 在 最 终 的 Python 
接口 中 是 让 它们 保持 隐 式 的 。 
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例 7-24 使 用 f2py 注解 的 Fortran 2 阶 扩散 代码 


SUBROUTINE evolve (grid, next grid, D, dt, N, M) 
!f2py threadsafe 
!f2py intent (in) grid 
I!f2py intent (inplace) next grid 
!f2py intent (in) D 
!f2py intent (in) dt 
I!f2py intent (hide) N 
!f2py intent (hide) M 
INTEGER :: N, M 
DOUBLE PRECISION, DIMENSION(N,M) :: grid, next grid 
DOUBLE PRECISION, DIMENSION(N-2, M-2) :: laplacian 
DOUBLE PRECISION :: D, dt 





laplacian = grid(3:N, 2:M-1) + grid(l1:N-2, 2:M-1) + & 


grid(2:N-1, 3:M) + grid(2:N-1, 1:M-2) - 4 * grid(2:N-1, 2:M-1) 


next grid(2:N-=1, 2:;M-1) = grid(2:N-1, 2:M-1) + D * dt * laplacian 
END SUBROUTINE evolve 


我 们 运行 下 面 的 命令 来 把 代码 构建 成 一 个 Python 模块 : 





$ f2py -c -m diffusion --fcompiler=gfortran --opt='-03' diffusion.f90 


这 会 创建 一 个 能 被 直接 导入 Python 的 diffusion.so 文件 。 

















如 果 我 们 交互 性 地 运行 结果 模块 , 我 们 能 看 到 f2pPy 带 给 我 们 的 好 处 , 多亏 了 我 们 





的 注解 和 £2py 解析 Fortran 代码 的 能 力 : 


In [1]: import diffusion 


和 正人 本 条 二 在 丰 OS 开 伯 六 汉 
Type : module 
String form: <module "qiffusion' from 'diffusion.so'> 
File: .../examples/compilation/f2py/diffusion.so 
Docstring: 
This module 'diffusion' is auto-generated with f2py (version:2). 
Functions: 
evolve (grid,next grid,d,dt) 


In [3]: diffusion.evolve? 
Type: fortran 

String form: <fortran object> 
Docstring: 

evolve (grid,next grid,dqd,dt) 


Wrapper for ”evolve 
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Parameters 

grid : input rank-2 array('d') with bounds (n,m) 
next grid : rank-2 array('d') with bounds (n,m) 
d : input float 

dt : input float 


这 个 代码 显示 出 £2py 生成 的 结果 是 自动 文档 化 的 ， 而且 接口 相当 简化 。 例 如 , 与 
其 我 们 来 抽取 出 vectors 的 大 小 , f2py 已 经 能 发 现 自动 寻找 这 些 信息 的 方法 并 且 在 
最 终 的 接口 中 只 是 把 它 隐藏 了 起 来 。 事实 上 , 最 终 的 evolve 函数 签名 看 起 来 和 我 
们 在 例 6-14 中 所 写 的 纯 Python 版 本 一 模 一 样 。 


我 们 必须 要 仔细 的 唯一 事情 就 是 在 内 存 中 numpy array 的 顺序 。 既 然 绝 大 多 数 我 
们 所 用 的 numpy 和 Python 集中 于 从 C 演变 过 来 的 代码 , 我 们 对 于 内 存 中 的 数据 顺 
序 一 直 使 用 C 的 惯例 〈 称 为 行 优先 顺序 )。Fortran 使 用 了 一 种 不 同 的 惯例 〈 列 优先 
顺序 )， 这 样 我 们 必须 要 确保 让 我 们 的 vectors 遵守 惯例 。 这 些 顺 序 仅仅 表明 了 对 于 
一 个 2 维 数组 ， 它 的 列 或 行 在 内 存 中 是 否 是 紧 挨 的 。 幸 运 的 是 ， 这 仅仅 意味 着 当 
我 们 声明 vectors 时 ， 给 numpy 指明 order='F' 参数 就 行 。 


备 忘 

行 优先 顺序 和 列 优 先 顺序 的 差异 意味 着 矩阵 [ [1，2]，[3，4] ] 
在 内 存 中 按 行 优先 顺序 排列 成 [1，2，3，4]， 按 列 优先 顺序 排列 成 
[1，3，2，4]。 这 个 差异 只 是 习惯 上 的 ， 当 使 用 恰当 时 对 性 能 没有 
任何 真正 影响 。 



































这 就 产生 了 下 面 我 们 使 用 Fortran 子 例 程 的 代码 。 除 了 导入 f2py 衍生 库 和 让 我 们 
的 数据 遵照 显 式 的 Fortran 顺序 之 外 ,这 个 代码 看 上 去 和 我 们 在 例 6-14 中 所 使 用 的 
简直 一 模 一 样 。 


from diffusion import evolve 








def run experiment (num iterations): 
next grid = np.zeros (grid shape, dtype=np.double, order='F') # © 
grid = np.zeros(grid shape, dtype=np.double, order="'F') 


# ..: Standard initialization ;.., 
for i in range (num iterations): 


evolve (grid, next grid, 1.0, 0.1) 
grid, next grid = next grid, grid 
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@ Fortran 在 内 存 中 以 不 同 的 顺序 排列 数字 ， 所 以 我 们 必须 记得 把 我 们 的 numpy 
array 设置 成 使 用 这 个 标准 。 
7.13.4 CPython 模块 
最 后 ,我 们 总 是 能 一 路 走 到 CPython API 的 层面 ， 并 且 写 一 个 CPython 模块 。 这 要 
求 我 们 以 和 开发 CPython 一 样 的 方式 去 写 代码 ， 并 且 需 要 小 心 对 待 我 们 的 代码 和 
CPython 实现 之 间 的 所 有 交互 。 


这 样 会 具有 很 优秀 的 移植 性 优势 ， 取 决 于 Python 版 本 。 我 们 不 需要 任何 外 部 模 
块 或 库 ， 只 需 一 个 C 编译 器 和 Python| 无 论 怎样 ， 这 样 并 不 一 定 能 很 好 地 扩展 
到 Python 的 新 版 本 中 去 。 例 如 ， 让 用 Python 2.7 写 的 CPython 模块 和 Python 3 
一 起 工作 。 


然而 为 移植 性 付出 了 巨大 的 代价 ， 你 要 负责 你 的 Python 代码 和 模块 之 间接 口 的 所 
有 方方面面 。 甚 至 只 是 为 最 简单 的 任务 也 要 去 写 上 几 十 行 的 代码 。 例 如 ， 为 了 和 来 
自 例 7-20 中 的 扩散 库 对 接 , 我 们 必须 写 28 行 代码 只 是 去 读 一 个 函数 的 参数 并 解析 
( 例 7-25)。 当 然 ， 这 确实 意味 着 你 有 惊人 的 细 粒 度 去 控制 正在 发 生 的 事情 。 如 
此 可 以 一 直 走 下 去 直到 能 够 手动 为 Python 的 垃圾 收集 去 更 改 引用 计数 ( 当 创建 处 
理 本 地 Python 类 型 的 CPython 模块 时 ， 这 是 许多 痛楚 的 根源 )。 就 因为 这 样 ， 最 终 
的 代码 趋向 于 比 其 他 的 接口 方式 快 几 分 钟 。 
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盐 x 上 秒 
十 日 
篇 、 总 而 言 之 ， 这 个 方法 应 该 留 作 最 后 的 解决 手段 。 虽 然 它 为 编写 
[4 CPython 模块 提供 了 很 多 信息 ， 但 最 终 的 代码 不 如 其 他 潜在 的 方法 
那么 可 重用 和 可 维护 。 在 模块 中 做 很 细微 的 改动 常常 需要 完全 重 写 。 
事实 上 , 我 们 包含 了 模块 代码 , 并 且 需 要 setup.py 来 编译 它 ( 例 7-26 ) 
作为 警示 。 


例 7-25 与 2 阶 扩散 库 对 接 的 CPython 模块 

// python _ interface.c 

// - cpython module interface for diffusion.c 
#define NPY_NO DEPRECATED API NPY 1 7 API VERSION 





#include <Python .h> 
#include <numpy/arrayobject.h> 
#include "diffusion.h" 


/* Docstrings */ 
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static char module docstring[] = 

"Provides optimized method to solve the diffusion equation"; 
static char cdiffusion evolve docstring[] = 

"Evolve a 2D grid using the diffusion equation"; 


PyArrayObject* py evolve (PyObject* self, PyObject* args) { 





PyArrayObject* data; 
PyArrayObject* next grigd; 
double dt, D=1.0; 


/* The "evolve" function will have the signature: 

交 evolve (data, next grid, dt, D=1) 

*/ 

if (!PyArg ParseTuple(args, "OO0dl|d", &data, é&next grid, &dt, &D)) { 
PyErr SetString (PyExc RuntimeError, "Invalid arguments"); 
return NULL; 











/* Make sure that the numpy arrays are contiguous in memory */ 

if (!PyArray Check(data) || !PyArray ISCONTIGUOUS (data)) { 
PyErr SetString (PyExc RuntimeError,"data is not a contiguous array."); 
return NULL; 

} 

if (!PyArray Check (next grid) || !PyArray ISCONTIGUOUS (next gridqd)) { 
PyErr SetString (PyExc RuntimeError,"next gridisnotacontiguousarray."); 
return NULL; 








/* Make sure that grid and next grid are of the same type and have the same 
* dimensions 


4 
if (PyArray TYPE (data) != PyArray TYPE (next grid)) { 
PyErr SetString (PyExc RuntimeError, 
"next grid and data should have same type."); 
return NULL; 
} 
if (PyArray NDIM(data) != 2) { 
PyErr SetString (PyExc RuntimeError,"data should be two dimensional"); 
return NULL; 
} 
if (PyArray NDIM(next grid) != 2) { 


PyErr SetString (PyExc RuntimeError,"next grid should be two dimensional"); 
return NULL; 
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if ((PyArray DIM(data,0) != PyArrayDim(next grid,0)) || 
(PyArray DIM(data,1) != PyArrayDim(next grid,1))) { 
PyErr SetString (PyExc RuntimeError, 





"data and next grid must have the same dimensions"); 
return NULL; 


/* Fetch the size of the grid we are working with */ 


const int N = (int) PyArray DIM(data, 0); 
const int M = (int) PyArray DIM(data, 1); 
evolvel( 

N, 

M, 


PyArray_ DATA (data), 
PyArray_ DATA (next grid), 
D, 

dt 





); 


Py _ XINCREF (next grid); 


return next grid; 


/* Module specification */ 
static PyMethodDef module methods[] = { 
/* { method name , C function , argument types , docstring } */ 





{ "evolve" , Py evolve , METH VARARGS , Cdiffusion evolve docstring } ， 
{ NULL , NULL 元 但 NULL } 








] 7 


/* Initialize the module */ 
PyMODINIT FUNC initcdiffusion (void) 
{ 
PyObject *m= Py InitModule3 ("cdiffusion", module methods, module docstring); 
if (m == NULL) 
return; 
/* Load ‘numpy. functionality. */ 
import array(); 


} 
为 了 构建 这 个 代码 ， 我 们 需要 创建 一 个 setup.py 脚本 ， 使 用 distutils 模块 来 确定 
构建 代码 的 方式 , 这 样 才 是 兼容 Python ( 例 7-26) 。 除 了 标准 distutils 模块 , numpy 
还 提供 了 它 自 己 的 模块 用 以 帮助 在 你 的 CPython 模块 中 加 入 与 numpy 的 整合 。 
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例 7-26 用 于 CPython 模块 扩散 接口 的 setup 文件 


LAL 


Setup.py for cpython diffusion module. The extension can be built by running 
$ Python setup.py build ext --inplace 


which will create the _cdiffusion.so file, which can be directly imported into 
Python. 


LAL 


from distutils.core import setup, Extension 
import numpy.distutils.misc util 


version 01" 


cdiffusion = Extension( 
'cdiffusion', 


sources = ['cdiffusion/cdiffusion.c', 'cdiffusion/python interface.c'], 
extra: ComLLe args = ("=03",. "=-std=c99",. Wall "Pp" "pg" ]y 
extra 1ink .args = ["=-16"]y 
) 
setup ( 
name = 'diffusion', 
version = version ， 
ext modules = [cdiffusion,], 
packages = ["diffusion", ], 


include dirs = numpy.distutils.misc util.get numpy include dirs(), 





) 


生成 的 结果 是 一 个 cd9iffusion. so 文件 ， 能 被 Python 直接 导入 ， 而 且 使 用 起 来 
相当 简单 。 既 然 我 们 已 经 完全 控制 了 最 终 函 数 的 签名 以 及 我 们 的 C 代码 与 库 的 精 
确 交 互 方式 ， 我 们 能 够 (以 一 些 艰难 的 工作 ) 创建 出 一 个 容易 使 用 的 模块 。 














from cdiffusion import evolve 





def run experiment (num iterations): 
next grid = np.zeros (grid shape, dtype=np.double) 
grid = np.zeros(grid shape, dtype=np.double) 


# ... standard initialization 
for i in range (num iterations): 


evolve (grid, next grid, 1.0, 0.1) 
grid, next grid = next grid, grid 
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7.14 小结 


本 章 所 介绍 的 各 种 不 同 的 策略 允许 你 在 不 同 程度 上 定制 你 的 代码 ， 以 便 降 低 CPU 
必须 执行 的 指令 数量 和 提高 你 的 程序 效率 。 有 时 这 能 用 算法 来 做 到 , 尽管 常常 必须 
手动 去 做 (请 看 7.2 节 )。 而 且 ， 有 时 只 是 必须 借用 这 些 方法 来 使 用 其 他 语言 已 经 
写 好 的 库 。 无论 动机 如 何 , Python 允许 我 们 从 其 他 语言 在 某 些 问题 上 能 够 带 来 的 速 
度 提升 中 获得 收益 ， 然 而 当 有 需要 时 还 是 保留 了 它 的 表达 性 和 灵活 性 。 


然而 需要 注意 的 是 ， 做 这 些 优化 只 是 为 了 优化 CPU 指令 的 效率 。 如 果 你 把 IO 密 
集 型 进程 和 CPU 密集 型 问题 耦合 了 起 来 ， 仅 仅 是 编译 你 的 代码 可 能 不 会 带 来 任何 
合理 的 速度 提升 。 对 于 这 些 问题 ,我们 必须 重新 思考 我 们 的 解决 方案 , 并 且 可 能 
利用 并 行 化 来 在 同一 时 间 运 行 不 同 的 任务 。 
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读 完 本 章 之 后 你 将 能 够 回答 下 列 问题 


什么 是 并 发 ， 它 如 何 起 帮助 作用 ? 
并 发 和 并 行 的 区 别 是 什么 ? 

什么 任务 能 够 用 并 发 来 做 ， 什 么 不 能 做 ? 
并 发 的 各 种 模式 是 什么 ? 

什么 时 候 是 利用 并 发 的 合适 时 机 ? 

并 发 如 何 来 加 速 我 们 的 程序 ? 








IO 对 程序 的 执行 流 是 相当 大 的 负担 。 每 一 次 你 的 代码 读 取 一 个 文件 或 者 写 人 一 个 


网 络 socket， 它 必须 得 暂停 和 内 核 
能 看 起 来 并 不 像 是 世界 末日 , 尤其 当 你 意识 到 每 次 分 配 内 存 昌 








操作 之 后 。 无 论 如 何 ， 如 果 我 们 回溯 到 图 1-3 ， 就 会 看 到 我 
操作 在 比 CPU 慢 几 个 数量 级 的 设备 上 。 


例如 ， 一 个 典型 操作 大 约 花费 1 毫秒 来 写 














的 联系 ， 请 求 去 启动 操作 ， 并 等 待 它 完成 。 这 可 























只 会 发 生 一 次 简单 的 
门 执行 的 绝 大 多 数 IO 








网 络 socket， 在 这 期 间 ， 我 们 本 应 能 在 一 





台 2.4GHz 的 电脑 上 完成 24000000 条 指令 。 最 粮 的 是 ， 我 们 的 程序 暂停 超过 了 1 
毫秒 一 一 我 们 的 执行 流 暂 停 下 来 了 , 我 们 正在 等 待 一 个 写 操 








的 状态 下 花费 的 时 间 叫 作 “IO 等 待 ”。 

















发 允许 我 们 在 等 待 一 个 IO 操作 完成 的 时 候 执行 其 他 操作 
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作 完 成 的 信号 。 在 暂停 


， 从 而 帮助 我 们 把 这 个 
浪费 的 时 间 利 用 起 来 。 例 如 ， 在 图 8-1 中 ,我 们 看 到 它 描述 了 一 个 必须 运行 三 个 任 








务 的 程序 ， 所 有 任务 都 在 其 内 具有 周期 性 的 IO 等 待 。 如 果 我 们 串 行 地 运行 它们 ， 
我 们 就 会 遭受 三 次 IO 等 待 的 惩罚 。 

无 论 如 何 , 如 果 我 们 并 发 地 运行 这 些 任务 , 我 们 基本 上 就 能 通过 同时 运行 其 他 的 任 
务 来 隐藏 掉 等 待 的 时 间 。 值 得 注意 的 是 ,这 还 是 都 发 生 在 一 个 单独 的 线程 上 , 还 是 
每 次 只 使 用 一 个 CPUI1 

尽管 并 发 不 局 限于 WO， 但 这 是 我 们 所 见 到 的 能 得 到 最 大 收益 的 地 方 。 在 一 个 并 发 
程序 中 , 与 其 让 你 的 代码 串 行 执行 一 一 那 就 是 ,从 一 行 到 下 一 行 一 一 不 如 编写 你 的 
代码 来 处 理事 件 ， 当 不 同事 件 发 生 时 ， 让 你 的 代码 运行 于 不 同 的 部 分 。 


通过 用 这 种 方式 对 一 个 程序 建 模 , 我 们 就 能 够 处 理 我 们 所 关心 的 特殊 事件 : IO 等 待 。 







































































串 行 与 并 发 程序 的 运行 时 对 比 
中 行 国 辐 | | | 司 国 加 T [| 可 [TITTTTTDI 


并 发 人 ITCTT IETT] 
任务 1 任务 2 任务 3 1/O 等 待 
口 转 口 口 











图 8-1 ” 串 行 和 并 发 程序 的 对 比 


8.1 异步 编程 介绍 


当 一 个 程序 进入 IO 等 待 时 ， 和 暂停 执行 ， 这 样 内 核 就 能 执行 VO 请 求 相关 的 低级 操 
作 (这 叫 作 一 次 上 下 文 切换 )， 直 到 VO 操作 完成 时 才 继 续 。 上 下 文 切换 是 相当 重 
量 级 的 操作 。 它 要 求 我 们 保存 程序 的 状态 (丢失 了 我 们 在 CPU 层面 上 任何 类 型 的 
缓存 ) ， 放 弃 使 用 CPU。 之 后 ， 当 我 们 允许 再 次 运行 时 ， 我 们 必须 花 时 间 在 主板 上 
重新 初始 化 程序 并 准备 好 继续 运行 (当然 ， 所 有 这 一 切 都 在 幕后 发 生 )。 


另 一 方面 ， 使 用 并 发 ， 典 型 情况 下 我 们 会 有 一 个 叫 作 “事件 循环 ”的 东西 ， 来 管理 
我 们 程序 中 该 运行 什么 , 什么 时 候 运 行 。 实 质 上 , 一 个 事件 循环 只 是 需要 运行 的 一 
个 函数 列表 。 在 列表 项 端的 函数 得 到 运行 ， 接 着 轮 到 下 一 个 ,依次 类 推 。 例 8-1 展 
示 了 一 个 事件 循环 的 简单 例子 。 


例 8-1 一 个 玩具 意义 上 的 事件 循环 


from Queue :import Queue 
from functools import partial 














wa 























eventloop = None 
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class EventLoop (Queue): 
def start (self): 
while True: 
function = self.get() 
function () 


def do hello() : 
global eventloop 
print “Hello" 
eventloop.put (do _ world) 


def do worild(): 
global eventloop 
print "world" 
eventloop.put (do hello) 


4 name == " main 
eventloop = EventLoop() 
eventloop.put (do _ hello) 
eventloop.start() 


这 可 能 看 上 去 不 像 一 个 巨大 的 变化 。 无 论 如 何 ， 当 运行 IO 任务 时 ， 我 们 能 够 
耦合 事件 循环 和 异步 async) IO 操作 来 获得 巨大 的 收益 。 这 些 操作 是 非 阻 塞 
的 ， 意 味 着 如 果 我 们 用 一 个 异步 程序 做 一 次 网 络 写 操 作 ， 它 会 立即 返回 ， 尽 管 
写 操作 还 没有 发 生 。 当 写 操作 完成 时 ， 会 触发 一 个 事件 ， 所 以 我 们 的 程序 就 得 
以 知晓 了 。 


把 这 两 个 概念 放 在 一 起 ， 我 们 就 能 获得 这 样 一 个 程序 : 当 请 求 一 个 IO 操作 时 ,在 
等 待 原 来 的 IO 操作 完成 期 间 ， 可 以 运行 另外 的 函数 。 这 实质 上 还 允许 我 们 做 有 意 
义 的 运算 ， 不 然 我 们 就 会 处 于 IO 等 待 中 。 


备 忘 
函数 之 间 的 切换 会 有 开销 。 内 核 必须 花费 时 间 来 设置 在 内 存 中 被 调 
用 的 函数 ， 我 们 缓存 的 状态 将 会 变 得 不 可 预测 。 正 因为 如 此 ， 在 你 
的 程序 有 许多 IO 等 待 时 , 并 发 给 出 了 最 好 的 结果 一 尽管 这 种 切换 
的 确 有 它 的 开销 ,但 它 要 比 把 JJO 等待 时 间 利 用 起 来 从 而 取得 的 收益 
要 小 得 多 。 












































使 用 事件 循环 编程 能 采取 两 种 方式 : 回调 或 者 fnture。 在 回调 模式 中 ， 使 用 一 个 通 
常 称 之 为 回调 的 函数 作为 输入 参数 来 调用 函数 。 它 会 使 用 值 来 调用 回调 函数 , 而 不 
是 把 值 返回 出 去 。 这样 就 设置 了 长 长 的 调用 函数 链 , 每 一 个 函数 得 到 链 中 前 一 个 函 
数 返回 的 值 。 例 8-2 是 一 个 回调 模式 的 简单 例子 。 
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例 8-2 ”回调 例子 

from functools import partial 

def save valuel(value, callback): 
print "Saving {} to database".format (value) 
save result to dbl(result, callback) # ©@ 





def print response(db response): 
print "Response from database: {}".format (db response) 


了 下 name == " main 
eventloop.put( 
partial(save value, "Hello World", print response) 








) 
@ save _ result to db 是 一 个 异步 函数 ， 它 会 立即 返回 并 且 结 束 ， 人 允许 其 他 代 
码 运行 。 无 论 如 何 ， 一 旦 数据 准备 好 ，print_response 就 会 被 调用 。 


另 一 方面 ， 使 用 futures， 一 个 异步 函数 返回 一 个 future 结果 的 promise， 而 不 是 实 
际 的 结果 。 正 因为 如 此 , 我们 必须 等 待 被 这 种 类 型 的 异步 函数 所 返回 的 future 完成 ， 
并 被 我 们 所 期 待 的 值 所 填充 (或 者 在 其 中 做 一 个 Yield， 或 者 通过 运行 一 个 函数 
显 式 地 等 待 值 准备 好 )。 在 等 待 future 对 象 被 我 们 所 请 求 的 数据 填充 时 ， 我 们 能 够 
做 其 他 运算 。 如 果 我 们 把 它 和 生成 器 (generators) 的 概念 能 够 被 暂停 并 且 以 
后 能 继续 执行 的 函数 一 一 耦合 起 来 , 我 们 就 能 写 出 看 上 去 形式 上 很 接近 串 行 代码 的 
异步 代码 : 

Qcoroutine 

def save value (Value， callback): 

print "Saving {} to database".format (value) 


db _ response = yield save result to dbl(result, callback) # ©@ 
print "Response from database: {}".format (db response) 































































































下 下 name == " main 
eventloop.put( 
partial(save value, "Hello World") 





) 
@ 在 这 种 情况 下 ，save result to _ db 返回 一 个 Future 类 型 。 通 过 让 步 
(yielding) ， 我 们 就 确保 暂停 了 save_value， 直 到 值 准备 好 了 才 继 续 并 完成 它 
的 操作 。 


在 Python 中 ， 协 程 是 作为 生成 器 (generator) 来 实现 的 。 这 很 方便 ， 因 为 生成 
器 〈generator) 已 经 有 机 制 来 暂停 它们 的 执行 并 在 以 后 继续 运行 。 所 以 ， 在 我 们 
的 协 程 中 所 发 生 的 事情 就 是 产生 一 个 future, 事件 循环 会 等 待 直到 那个 future 把 
它 的 值 准备 好 。 一 旦 值 准 备 好 了 ， 事 件 循 环 会 继续 执行 那个 函数 ， 把 future 的 
值 送 还 给 它 。 
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对 于 Python 2.7 的 基于 future 的 并 发 实现 ， 当 我 们 设法 把 协 程 用 作 实 际 函 数 时 ， 事 

















情 会 变 得 有 点 奇怪 。 记 住 生 成 器 (generators) 不 能 返回 值 ， 所 以 就 有 了 库 处 理 这 
个 问题 的 各 种 各 样 的 方式 。 


在 Python 3.4 中 ,无论 如 何 , 已 经 引入 了 新 的 机 制 来 方便 地 创建 协 程 ， 并且 还 是 让 
协 程 来 返回 值 。 


在 本 章 中 , 我 们 将 分 析 一 个 从 HTTP 服务 器 抓 取 数 据 的 网 络 候 虫 , 这 个 HTTP 服务 
器 被 构造 成 有 延迟 。 这 代表 了 无 论 何 时 当 我 们 处 理 IO 时 会 发 生 的 普遍 的 响应 时 间 
延迟 。 我 们 首先 创建 一 个 串 行 仆 虫 ， 看 起 来 就 像 天 然 的 针对 这 个 问题 的 Python 解 
决 方案 。 接着 , 我 们 浏览 Python 2.7: gevent 和 tornado 这 两 种 解决 方案 。 最 后 ， 
我 们 会 查看 Python 3.4 中 的 asyncio 库 , 看 看 在 Python 中 异步 编程 的 未 来 会 是 什 
么 样 的 。 

备 忘 

我 们 实现 的 Web 服务 器 能 够 同时 支持 多 个 连接 。 这 对 于 你 要 运行 IO 
操作 所 遇 到 的 大 多 数 的 服务 来 说 是 真实 的 一 大 多 数 数据 库 能 够 同 
时 支持 多 个 请 求 ， 大 多 数 Web 服务 器 支持 10000 多 个 同时 连接 。 无 论 
如 何 ， 当 与 一 个 不 能 同时 处 理 多 个 连接 的 服务 交互 时 ， 我 们 将 总 是 
获得 与 串 行 情况 下 相同 的 性 能 。 


8.2 串 行 怜 虫 


对 于 在 我 们 实验 中 的 并 发 控制 , 我 们 会 写 一 个 串 行 的 Web 疏 虫 来 使 用 一 串 URL 列 
表 ， 抓 取 它们 并 对 页 面 内 容 的 总 长 度 求 和 。 我 们 会 使 用 一 个 定制 的 HTTP 服务 器 ， 
采用 两 个 参数 ，name 和 delay。delay 域 会 告诉 服务 器 在 得 到 响应 前 暂停 多 久 ， 
以 毫秒 计时 。name 域 只 是 为 了 日 志 的 目的 。 


通过 控制 delay 参数 ， 我 们 能 够 模拟 服务 器 响应 我 们 请 求 的 时 间 。 在 真实 的 世界 
中 ， 这 可 能 对 应 于 一 个 慢 速 的 Web 服务 器 ， 一 个 繁重 的 数据 库 调 用 ， 或 是 任何 要 
花 长 时 间 运 行 的 IO 调用 。 对 于 串 行 的 情况 ,这 仅仅 代表 了 我 们 的 程序 会 陷 人 更 多 
的 VO 等 待 的 时 间 ， 但 是 在 之 后 的 并 发 例子 中 ,， 它 也 代表 了 程序 能 花 更 多 的 时 间 来 
做 其 他 事情 。 


此 外 ， 我 们 选择 使 用 requests 模块 来 执行 HITP 调用 。 做 出 这 个 选择 是 出 于 这 
个 模块 的 简单 性 。 我 们 一 般 为 此 小 节 使 用 HITP， 因 为 它 是 一 个 简单 的 IO 例子 ， 
















































































@ 对 于 一 些 数据 库 ， 比 如 Redis， 这 是 一 个 专 为 维护 数据 一 致 性 所 做 出 的 设计 抉择 。 
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并 且 能 相当 容易 地 执行 HTTP 请 求 。 一 般 情 况 下 , 对 一 个 HITP 库 的 任何 调用 都 能 
被 其 他 IO 所 代替 。 我 们 串 行 版 本 的 HITP 扑 虫 显示 于 例 8-3 中 。 


例 8-3” 串 行 HTTP 爬虫 
import requests 

import string 

import random 


























def generate urils (base url, num urls): 
rr 
We add random characters to the end of the URL to break any caching 


mechanisms in the requests library or the server 
ror 


for i in xrange (num urls): 
yield base url + "".join(random.sample (string.ascii lowercase, 10)) 





def run experiment (base url, num iter=500): 
response size = 0 
for Url :in generate urls(base url, num iter): 
response = requests.get (url) 
response size += len(response.text) 
return response size 


ML name == " main ": 





import time 

delay = 100 

num iter = 500 

base url = "http://127.0.0.1:8080/add?name=serial &delay={}&".format (delay) 


start = time.time() 

result = run experiment (base url, num iter) 

end = time.time() 

print ("Result: {}, Time: {}".format (result, end - start)) 


当 运 行 这 段 代 码 时 , 会 看 到 一 个 有 趣 的 度量 就 是 去 测试 HTTP 服务 器 所 见 到 的 每 个 
请 求 的 起 始 和 结束 时 间 。 这 告诉 我 们 在 IO 等 待 期 间 的 代码 效率 一 一 因为 我 们 的 任 
务 只 是 去 发 起 HTTP 请 求 并 对 返回 的 字 节 数 求 和 , 我 们 应 该 能 够 在 等 待 其 他 请 求 完 
成 的 期 间 ， 发 起 更 多 的 HITP 请 求 ， 并 处 理 任何 响应 。 


从 图 8-2 中 ， 我 们 可 以 看 到 ， 就 如 所 期 望 的 那样 ， 我 们 的 请 求 没 有 交织 。 我 们 在 一 
个 时 间 做 一 次 请 求 ， 并 且 在 我 们 转移 到 下 一 次 请 求 之 前 ， 等 待 前 面 的 请 求 做 完 。 事 
实 上 ， 串 行 过 程 的 整体 运行 时 间 很 有 意义 ， 知 道 了 这 个 : 既然 每 个 请 求 花费 0.1 秒 
(因为 我 们 的 delay 参数 ) ， 我 们 正在 做 500 次 请 求 ， 那 么 我 们 就 期 待 整体 运行 时 
间 大 概 是 50 秒 。 
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串 行 的 调用 时 间 线 











图 8-2 例 8-3 的 HTTP 请 求 时 间 表 


8.3 gevent 


最 简单 的 异步 库 之 一 就 是 gevent。 它 遵照 了 让 异步 函数 返回 future 的 模式 ， 意 味 
着 代码 中 的 大 部 分 逻辑 会 保持 一 样 。 此外, gevent 对 标准 IO 函数 做 了 猴子 补丁 ， 
把 它们 变 成 了 异步 , 这 样 大 多 数 时 间 你 可 以 仅仅 使 用 标准 的 VO 包 并 得 益 于 异步 的 
行为 。 

gevent 提供 了 两 个 机 制 来 使 能 异步 编程 一 一 就 如 我 们 刚才 提 到 的 , 它 用 异步 的 
IO 函数 给 标准 库 打 补丁 ， 并 且 它 也 有 一 个 greenlet 对 象 能 被 用 于 并 发 执行 。 
greenlet 是 一 种 协 程 ， 能 够 被 想象 成 线程 (请 看 第 9 章 对 线程 的 讨论 ) 。 无 论 
怎样 ,所 有 的 greenlets 在 同一 物理 线程 上 运行 。 那 就 是 说 ，gevent 的 调度 
器 在 LO 等 待 期 间 使 用 一 个 事件 循环 在 所 有 greenlets 间 来 回 切换 , 而 不 是 用 
多 个 CPU 来 运行 它们 。 大 多 数 情况 下 ，gevent 通过 使 用 wait 函数 来 设法 尽 
可 能 透明 化 地 处 理事 件 循环 。wait 函数 将 启动 一 个 事件 循环 ,， 只 要 有 需要 就 运 
行 着 ， 直 到 所 有 的 greenlets 结束 。 正 因 如 此 ， 你 的 大 部 分 gevent 代码 以 
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串 行 方式 运行 。 接 着 ， 在 某 点 上 ， 你 会 设置 许多 greenlets 来 做 并 发 任务 ， 
并 且 用 wait 函数 来 启动 事件 循环 。 当 wait 函数 正在 执行 时 , 你 入 队 堆 积 起 来 
的 所 有 并 发 任务 会 运行 直到 结束 (或 某 个 停止 条 件 ) ， 接 着 你 的 代码 会 重新 回 到 
串 行 方式 运行 。 

Future 由 gevent .spawn 来 创建 ， 使 用 了 一 个 函数 和 传递 给 这 个 函数 的 参数 ， 并 
且 启 动 了 一 个 负责 运行 这 个 函数 的 greenlet。greenlet 能 够 被 看 作 一 个 future， 
因为 你 声明 的 函数 一 旦 运行 完成 ， 它 的 值 就 会 包含 在 greenlet 的 value 域 中 。 


Python 标准 模型 的 补丁 会 让 人 更 难以 控制 异步 函数 得 以 运行 的 细节 和 时 间 。 例 
如 ， 当 正在 做 异步 WO 时 ， 我们 想 要 确认 的 一 件 事 就 是 我 们 没有 同时 打开 太 多 
的 文件 或 者 连接 。 如 果 我 们 这 样 做 了 ， 就 会 让 远程 服务 器 过 载 ， 或 者 不 得 不 在 
太 多 的 操作 间 做 上 下 文 切 换 ， 从 而 减 慢 进程 速度 。 启 动 与 我 们 要 抓 取 的 URL 相 
同 数量 的 greenlets 是 没有 效率 的 ， 我 们 需要 一 种 机 制 来 限制 我 们 同时 处 理 的 
HTTP 请 求 。 


我 们 能 够 通过 使 用 信号 量 来 手动 控制 并 发 请 求 的 数量 ， 从 而 同一 时 刻 只 从 100 个 
greenlets 来 做 HTTP 的 get 请 求 。 信 号 量 确保 了 同一 时 刻 只 有 一 定数 量 的 协 程 能 进 
入 上 下 文 模块 。 作 为 结果 ， 我 们 能 够 启动 我 们 所 需 的 所 有 greenlets 来 立即 抓 取 
URLs， 但 只 有 其 中 100 个 将 会 在 同一 时 刻 做 出 HITP 调用 。 信 号 量 是 一 种 在 各 种 
各 样 的 并 行 代码 流程 中 使 用 很 多 的 加 锁 机 制 。 通 过 基于 各 种 不 同 的 规则 来 限制 你 的 
代码 进程 ， 锁 能 够 帮助 你 确保 程序 中 各 个 不 同 的 模块 之 间 不 会 相互 干扰 。 


现在 既然 我 们 设置 好 了 所 有 的 futures, 并 且 已 经 把 加 锁 机 制 置 人 了 greenlets 的 控制 
流 ， 我 们 就 能 够 等 待 直到 用 gevent .iwait 函数 开始 获取 结果 为 止 ， 那 样 就 会 得 
到 一 个 futures 的 序列 , 并 遍历 准备 好 的 项 。 反 之 , 我 们 本 可 以 使 用 gevent .wait， 
那 会 阻塞 我 们 程序 的 执行 直到 所 有 的 请 求 做 完 为 止 。 


我 们 经 历 了 把 我 们 的 请 求 分 块 化 的 麻烦 ， 而 不 是 把 它们 立即 全 都 发 送出 去 ， 
为 超载 的 事件 循 坏 会 导致 性 能 降低 (这 对 于 所 有 的 异步 编程 都 是 真实 存在 的 )。 

从 实验 中 , 我 们 通常 看 到 在 同一 时 刻 100 个 左右 的 打开 连接 是 有 优化 作用 的 ( 见 
图 8-3)。 如 果 我 们 打开 更 少 的 连接 ， 我 们 就 还 是 会 在 IO 等 待 期 间 浪费 时 间 。 

如 果 打 开 更 多 的 连接 ， 我 们 就 会 在 事件 循环 中 太 频 繁 地 做 上 下 文 切换 ， 给 我 们 
的 程序 增加 不 必要 的 负担 。 那 就 是 说 ,100 这 个 值 取决 于 许多 事情 一 一 代码 正 运 
行 于 其 上 的 计算 机 ， 事 件 循 环 的 实现 ， 远 端 主机 的 属性 ， 远 端 主 机 的 期 望 响应 
时 间 等 。 我 们 建议 在 决定 选择 之 前 做 一 些 实验 , 例 8-4 显示 了 我 们 HTTP 疏 虫 的 
gevent 版 本 代码 。 
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_ 寻找 并 发 育 求 的 合适 数量 


… ee 800s 请 求 时 间 
一 wu 50s 请 求 时 间 
= -。 300s 请 求 时 间 
”ww 550s 请 求 时 间 
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8-3 寻找 并 发 请 求 的 合适 数量 


例 8-4 gevent HTTP 把 虫 
from gevent import monkey 
monkey.patch socket () 


import gevent 
from gevent.coros import Semaphore 
import urllib2 
import string 
import random 


def generate urls (base url, num urls): 
for i in xrange (num urls): 
yield base url + "".join(random.sample (string.ascii lowercase, 10)) 


def chunked requests(urls, chunk size=100): 
semaphore = Semaphore (chunk size) # 各 
requests = [gevent.spawn (download, u, semaphore) for u in urls] # ©@ 
for response in gevent.iwait (requests): 





yield response 


def download (url, semaphore): 
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with semaphore: # © 
data = urllib2.urlopen (url) 
return data.read() 


def run experiment (base url, num iter=500): 
urls = generate urls (base url, num iter) 
response futures = chunked requests(urls, 100) # @ 
response size = sum(len(r.value) for r jin response futures) 








return response siz 





窒 汶 


下 name == " main 





import time 

delay = 100 

num iter = 500 

base url = "http://127.0.0.1:8080/add?name=gevent &delay={}&" .format (delay) 


start = time.time() 

result = run experiment (base url, num iter) 

end = time.time() 

print ("Result: {}, Time: {}".format (result, end - start)) 


这 里 我 们 生成 了 一 个 信号 量 来 让 chunk_size 下 载 发 生 。 


@ 通过 把 信号 量 用 作 一 个 上 下 文 管理 器 ， 我 们 确保 了 只 有 chunk_size 数量 的 
greenlets 能 够 在 同一 时 刻 运行 上 下 文 的 主体 部 分 。 


@ 我 们 能 够 把 所 需 数量 的 greenlets 放 在 队列 中 ， 知 道 它们 之 中 没有 一 个 会 运行 直 
到 我 们 用 wait 或 ijwait 启动 一 个 事件 循环 为 止 。 


@ response_futures 现在 持 有 一 个 处 于 完成 状态 的 ftures 的 和 迭代 器 ， 所 有 这 
些 futures 的 .value 属性 中 都 具有 我 们 所 期 望 的 数据 。 


作为 蔡 换 ， 我 们 能 够 使 用 grequests 来 大 大 简化 我 们 的 gevent 代码 。 尽 管 
gevent 提供 了 所 有 类 型 的 低级 并 发 socket 操作 ，grequests 组 合 了 HTTP 
库 请 求 和 gevent， 其 结果 就 是 具有 很 简单 的 API 来 做 并 发 HTTP 请 求 (甚至 为 
我 们 处 理 信号 量 逻 辑 )。 使 用 qrequests， 我 们 的 代码 变 得 简单 很 多 ,更 容易 理 
解 ， 可 维护 性 更 好 ， 然 而 却 还 是 获得 了 与 更 低层 的 gevent 代码 相提并论 的 速度 
提升 ( 见 例 8-5)。 


例 8-5 ”grequests HTTP 把 虫 


import grequests 










































































def run experiment (base url, num iter=500): 











urls = generate urls(base url, num iter) 
response futures = (grequests.get (u) for u in urls) # © 
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responses = grequests.imap (response futures, size = 100) # 四 








response size = sum(len(r.text) for r in responses) 








return response siz 


@ 首先 我 们 创建 了 请 求 并 得 到 fature。 我 们 选择 了 把 它 当 作 生 成 器 (generator) 来 
做 ， 这 样 以 后 我 们 只 需要 做 与 我 们 准备 发 出 的 请 求 相同 次 数 的 估算 。 


@ 现在 我 们 能 够 取得 future 对 象 ， 并 把 它们 映射 成 真实 的 响应 对 象 。. imap 孙 
数 给 我 们 一 个 生成 器 (generator) 来 产生 响应 对 象 , 我 们 就 是 从 响应 对 象 来 获取 
数据 。 


一 件 重 要 的 事情 要 引起 注意 , 那 就 是 我 们 已 经 使 用 了 gevent 和 grequests 来 生 
成 异步 的 IO 请 求 ， 但 是 我 们 在 IO 等 待 期 间 没 有 做 任何 非 IO 的 计算 。 图 8-4 显 
示 了 我 们 取得 的 巨大 速度 提升 。 通 过 在 等 待 前 面 的 请 求 完 成 之 际 发 起 更 多 的 请 求 ， 
我 们 能 够 取得 69 倍 的 速度 提升 ! 通过 用 水 平 线 代表 相互 之 间 的 请 求 栈 的 方式 ， 我 
们 能 够 明显 看 到 在 前 面 的 请 求 完成 之 前 新 的 请 求 如 何 正 在 发 送出 去 。 这 与 串 行 疏 虫 
(图 8-2) 的 例子 形成 了 鲜明 的 对 比 , 在 串 行 仆 虫 的 图 中 , 一 个 线条 只 有 在 前 面 的 线 
条 完成 之 时 才 开 始 。 而 且 , 我 们 能 够 看 到 更 有 趣 的 效果 伴随 着 gevent 请 求 时 间 这 
的 形状 。 例 如 ， 在 大 约 前 100 个 请 求 处 , 我 们 看 到 一 个 停顿 ,没有 发 起 新 请 求 。 

是 因为 这 时 我 们 的 信号 量 第 一 次 命中 , 我 们 能 够 在 任何 前 面 的 请 求 完成 之 ee 
量 加 锁 。 在 这 之 后 , 信号 量 进入 一 个 平衡 态 ， 只 有 当 男 一 个 请 求 完 成 时 才 人 解锁 ， 并 
给 当前 新 请 求 加 锁 。 






















































































grequests 的 调用 时 间 线 
500 
400 
叫 300 
所 
以 
姑 
100 
.0 8.5 1.0 1.5 2.0 
时 间 
图 8-4 例 8-5 的 HTTP 请 求 时 间 表 
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8.4 


tornado 





另 一 个 在 Python 中 很 频繁 使 用 的 异步 IO 包 是 tornado ,由 Facebook 主要 为 HITP 
客户 端 和 服务 器 端 开 发 。 对 比 gevent ，tornado 选择 使 用 回调 的 方式 来 做 异步 
行为 。 无 论 怎样 ,在 3.x 发 布 版 中 ， 类 似 于 协 程 的 行为 以 一 种 和 老 代码 兼容 的 方式 
添加 了 进来 。 

在 例 8-6 中 ， 我 们 实现 了 和 用 gevent 相同 的 网 络 候 虫 ， 但 是 使 用 了 tornado 的 


IO 循环 (torado 版 的 事件 循环 ) 和 HTTP 客户 端 。 这 样 省却 了 我 们 的 麻烦 ， 比 如 
不 得 不 批量 化 我 们 的 请 求 并 处 理 其 他 更 多 底层 代码 的 方方面面 。 




















例 8-6 tornado HTTP 疏 虫 


from tornado import ioloop 
from tornado.httpclient import AsyncHTTPClient 
from tornado import gen 


from functools import partial 
import string 
import random 





AsyncHTTPClient.configure ("tornado.curl httpclient.CurlAsyncHTTPClient", 


max clients=100) # ©@ 


def generate urils(base url, num urls): 


for i in xrange (num urls): 
yield base url + "".join(random.sample (string.ascii lowercase, 10)) 


gen.coroutine 
def run experiment (base url, num iter=500): 


Tf 


http client = AsyncHTTPClient () 

urls = generate urls (base url, num iter) 

responses = yield [http client.fetch(url) for url in urls] # 四 
response sum = sum(len(r.body) for r in responses) 

raise gen.Return (value=response sum) # 四 


nm 


name == " main 





#0 LnltialiZation ne 


_ioloop = ioloop.IOLoop.instance () 
run func = partial (run experiment, base url, num iter) 
result = ioloop.run sync(run func) # @ 


@ 我 们 可 以 配置 HTTP 客户 端 并 挑选 我 们 希望 使 用 的 后 台 库 ， 以 及 我 们 想 要 批量 








处 理 的 请 求 数量 。 
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@ 我 们 生成 了 许多 futures， 接 着 yield 回 到 VO 循环 中 。 这 个 函数 会 继续 ， 
responses 变量 会 被 所 有 的 futures 填充 ， 当 它们 就 绪 时 ， 产 生 结果 。 


@ 在 tornado 中 的 协 程 由 Python 的 产生 器 (generators) 来 支持 。 为 了 从 它们 返回 
值 , 我 们 必须 要 生成 一 个 特殊 的 异常 , 由 gen .coroutine 把 它 转化 成 一 个 返回 值 。 


@ ioloop.run sync 会 只 在 特殊 化 的 函数 .ioloop .start() 的 运行 时 间 段 内 
启动 IOLoop ， 另 一 方面 ， 启 动 了 一 个 必须 手动 停止 的 IOLoop。 


例 8-6 的 tornado 代码 和 例 8-4 的 gevent 代码 的 一 个 重要 差别 是 在 事件 循环 运 
行 的 时 候 。 对 于 gevent 来 说 , 事件 循环 只 有 在 iwait 函数 正 运行 的 时 候 才 运行 。 
另 一 方面 ,在 tornado 中 ， 事 件 循环 在 整个 时 间 里 都 运行 ， 并 且 控制 着 程序 的 完 
全 执行 流 ， 而 不 仅仅 是 异步 的 IO 部 分 。 


这 使 得 tornado 对 于 主要 是 IO 密集 型 ， 并 且 大 部 分 程序 (如 果 不 是 所 有 程序 ) 
是 异步 的 应 用 来 说 很 理想 .tornado 所 宣称 的 最 大 名 声 就 是 作为 一 个 高 性 能 的 web 
服务 器 。 事 实 上 ，Micha 已 经 编写 了 基于 tornadeo 的 数据 库 和 在 很 多 场合 需要 许 
多 IO 的 数据 结构 。 在 另 一 方面 ， 既 然 gevent 对 你 的 整体 程序 没有 要 求 ， 它 对 
于 主要 是 基于 CPU, 然而 有 时 需要 重量 级 1/0 的 问题 是 一 个 理想 的 解决 方案 一 一 例 
如 ， 一 个 程序 在 一 个 数据 集 上 做 了 很 多 计算 ， 接 着 必须 把 结果 送 回 数据 库 来 存储 。 
这 样 甚至 会 变 得 更 简单 ， 因 为 事实 上 大 多 数 数据 库 有 简单 的 HTTP API， 意 味 着 你 
能 够 使 用 grequests。 


如 果 我 们 看 看 例 8-7 中 更 老 风格 的 使 用 了 回调 的 tornado 代码 ， 我 们 就 能 发 现 
tornado 的 事件 循环 多 么 有 控制 力 。 我 们 可 以 看 到 为 了 启动 代码 ， 我 们 必须 给 程 
序 添加 入 口 点 到 IO 循环 中 ， 接 着 再 启动 它 。 然 后 ， 为 了 让 程序 终止 ， 我 们 必须 小 
心 可 辟 地 给 我 们 的 IO 循环 带 上 stop 函数 , 并 且 在 合适 的 时 候 调 用 它 。 结 果 就 是 ， 
必须 显 式 地 带 上 回调 的 程序 变 得 负担 相当 沉重 , 而 且 很 快 就 变 得 不 可 维护 了 。 这 种 
情况 发 生 的 一 个 原因 是 回溯 不 能 再 持 有 变量 信息 , 这 些 信息 就 是 关于 哪些 函数 调用 
了 哪些 函数 , 并 且 我 们 怎样 进入 到 一 个 异常 来 启动 。 即 使 只 是 要 完全 知道 调用 了 哪 
些 函数 也 变 得 困难 ， 因 为 我 们 一 直 在 创建 偏 函数 来 填充 参数 。 毫 不 奇怪 ， 这 就 是 通 
常 所 称 的 “回调 地 狱 。 


例 8-7 使 用 回调 的 tornado 爬虫 


from tornado import ioloop 
from tornado.httpclient import AsyncHTTPClient 






































































































































































































































@ 例如 ，fuggetaboutit 是 一 种 特殊 类 型 的 概率 数据 结构 (请 看 11.6 节 ) 来 使 用 tornado IOLoop 调 
度 时 间 任 务 。 
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from functools import partial 


AsyncHTTPClient.configure ("tornado.curl httpclient.CurlAsyncHTTPClient", 
max_ clients=100) 


def fetch urls(urls, callback): 
http client = AsyncHTTPClient () 
urls = list(urls) 
responses = [] 
def finish fetch urls (result): # ©@ 
responses.append (result) 
if len (responses) == len (urls): 
callback (responses) 





For Mit :Ti UrlLS:; 
http client.fetch(url, callback= finish fetch urls) 


def run experiment (base url, num iter=500, callback=None): 
urls = generate urls (base url, num iter) 
callback passthrou = partial( finish run experiment, 
callback=callback) # 四 
fetch urls(urls, callback passthrou) 





def finish run experiment (responses, callback): 
response sum = sum(len(r.body) for r in responses) 
print response sum 
callback () 


nm 。 


主攻 name == " main 





# ... initialization ... 


_ioloop = ioloop.IOLoop.instance () 
_ioloop.add callback(run experiment, base url, num iter, ioloop.stop) #® 





_ioloop.start() 
@ 我 们 把 _ioloop. stop 作为 回调 传 给 run_experiment, 这 样 一 旦 实验 完成 ， 
它 就 会 为 我 们 关闭 IO 循环 。 
@ 回调 类 型 的 异步 代码 包含 了 许多 偏 函 数 的 创建 。 这 是 因为 我 们 常常 需要 保留 我 
们 传送 过 去 的 原始 回调 ， 即 使 当前 我 们 需要 把 运行 时 转移 给 其 他 函数 。 
@ 有 时 候 玩 弄 局 部 域 是 一 种 有 必要 的 作恶 ， 那 是 为 了 保持 状态 而 又 不 扰乱 全 局 命 

















gevent 和 tornado 之 间 男 一 个 有 趣 的 区 别 是 它们 内 部 改变 请 求 调用 图 的 方 
式 。 对 比 图 8-5 和 图 8-4， 对 于 gevent 的 调用 图 ， 我们 看 到 一 些 区 域 的 对 角 线 
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看 上 去 更 细 ， 而 另 一 些 区 域 的 对 角 线 看 上 去 变 得 更 粗 。 更 细 的 区 域 显 示 出 在 发 
起 新 的 请 求 之 前 ， 我 们 正在 等 待 旧 请 求 结束 的 那些 时 间 段 。 更 粗 的 区 域 代表 我 
们 太 忙 了 ， 以 致 无 法 读 取 来 自 那 些 本 应 该 已 经 结束 的 请 求 的 响应 。 这 些 类 型 的 
区 域 代 表 了 事件 循环 不 能 优化 工作 的 时 间 段 : 或 者 对 资源 利用 不 足 ， 或 者 超 负 
丛 使 用 资源 。 

另外 ，tornado 的 调用 图 要 更 均匀 得 多 。 这 显示 出 “tomado” 能 够 更 好 地 优化 资 
源 使 用 。 这 可 以 归 因 于 许多 因素 。 这 里 的 一 个 贡献 因素 就 是 因为 限制 并 发 请 求 的 数 
量 到 100 的 信号 量 机 制 是 内 建 于 tornado 的 ， 它 能 够 更 好 地 分 配 资 源 。 还 包括 以 
更 智能 的 方式 来 预 分 配 和 复 用 连接 。 此 外 ,有 许多 更 小 的 效果 是 来 自 模块 就 它们 与 
内 核 的 通信 方式 上 的 选择 ， 这 样 是 为 了 协调 从 多 异步 操作 中 接收 结果 。 

















tornado 的 调用 时 间 线 


请 求 数量 














8-5 例 8-6 的 HTTP 请 求 时 间 表 


8.5 AsynclO 


作为 对 使 用 异步 函数 来 处 理 重量 级 VO 系统 的 风潮 的 回应 ,Python 3.4+ 引 入 了 对 
老式 的 asyncio 标准 库 模 块 的 改造 。 这 个 模块 备 受 gevent 和 tornado 并 发 
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方法 的 影响 ， 定 义 了 协 程 ， 并 可 以 从 协 程 切换 ， 从 而 暂停 当前 函数 的 执行 并 允 
许 让 其 他 协 程 运行 。 就 像 在 tornado 中 那样 , 事件 循环 显 式 地 启动 来 开始 执行 
协 程 。 此 外 ，Python 3 引入 了 一 个 新 的 关键 词 一 一 yield from， 大 大 简化 了 对 
这 些 协 程 的 处 理 (我 们 不 再 需要 从 一 个 协 程 中 抛 出 异常 来 返回 值 ， 就 如 我 们 在 
例 8-6 中 做 的 那样 )。 


值得 重视 的 是 asyncio 库 是 很 低层 的 ， 并 不 对 用 户 提供 更 高 层 的 功能 。 例 如 ， 开 
管 有 很 全 面 的 socket API， 但 却 没有 简单 的 方法 来 做 HTTP 请 求 。 作 为 结果 ， 我 
们 在 例 8-8 中 选择 使 用 aiohttp。 无 论 如 何 ， 对 asyncio 库 的 采用 正 开 始 增长 ， 
辅助 模块 的 前 景 可 能 正在 飞速 变化 。 


例 8-8 asyncio HTTP 疏 虫 


import asyncio 


















































import aiohttp 
import random 


import string 


def generate _ Urls (base url, num urls): 
for i in range (num urls): 
yield base url + "".join(random.sample (string.ascii lowercase, 10)) 


def chunked http client (num chunks): 
semaphore = asyncio.Semaphore (num chunks) # ©@ 
Qasyncio.coroutine 
def http get (url): # 外 
nonlocal semaphore 
with (yield from semaphore): 
response = yield from aiohttp.request ('GET', uril) 





body = yield from response.content .read () 
yield from response.wait for close () 
return body 
return http get 


def run experiment (base url, num iter=500): 

urls = generate urls (base url, num iter) 

http client = chunked http client (100) 

tasks = [http client (url) for url in urls] # © 

responses sum = 0 

for future in asyncio.as completed(tasks): # 外 
data = yield from future 
responses_ sum += len (data) 

return responses_ sum 
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if 


name == " main 





import time 

delay = 100 

num iter = 500 

base url = "http://127.0.0.1:8080/add?name=asyncio&delay={}&".format (delay) 
loop = asyncio.get event loop() 


start = 七 ime.time() 





result = loop.run until complete (un experiment (base url, num iter)) 
end = time.time () 
print ("{} {}".format (result, end-start)) 


@ 正如 在 gevent 中 的 例子 一 样 ， 我 们 必须 使 用 信号 量 来 限制 请 求 数量 。 














@ 我 们 返回 一 个 新 的 协 程 来 异步 下 载 文 件 ， 并 遵从 信号 量 的 上 锁 。 
@ http_client 函数 返回 futures。 为 了 跟踪 进度 ， 我 们 把 futures 存 人 一 个 列表 。 
@ 就 像 用 gevent 那样 ， 我 们 能 够 等 待 futures 准备 就 绪 并 去 遍历 它们 。 


async 






































io 模块 的 一 个 很 大 的 好 处 就 是 与 标准 库 相 比 熟悉 的 API， 这 样 简化 了 创建 


辅助 模块 。 我 们 能 够 得 到 与 使 用 tornado 或 gevent 相同 类 型 的 结果 ,但 是 如 果 








我 们 想 要 , 我 们 就 能 更 深入 地 探索 软件 栈 ， 并 能 用 广泛 的 支持 结构 来 创建 我 们 自己 
的 异步 协议 。 此 外 ， 因 为 它 是 一 个 标准 库 模 块 ， 能够 向 我 们 确保 这 个 模块 总 是 遵照 





PEP 并 








且 得 到 了 合理 的 维护 ”。 


而 且 , asyncio 库 允 许 我 们 统一 像 tornado 和 gevent 这 样 的 模块 , 让 它们 在 相 
同 的 事件 循环 中 运行 。 事实 上 ,Python 3.4 版 本 的 tornado 由 asyncio 库 作 为 后 


侣 文 持 


循环 是 








。 结 果 就 是 ， 尽 管 tornado 和 gevent 有 着 不 同 的 使 用 场景 ， 底 层 的 事件 
统一 化 的 , 这 就 让 从 一 种 模式 切换 到 其 他 中 间 代 码 变 得 轻而易举 。 你 甚至 能 











基于 asyncio 模块 之 上 相当 容易 地 创建 你 自己 的 包装 器 ， 为 了 以 对 你 正在 解决 的 





问题 可 
尽管 它 
志 ， 将 


水 线 中 








能 是 最 有 效率 的 方式 来 与 异步 操作 交互 。 


只 在 Python 3.4 或 更 高 的 版 本 中 得 到 支持 ， 这 个 模块 至 少 是 一 个 伟大 的 标 
来 有 更 多 的 工作 将 放 入 异步 WO 中 。 因 为 Python 开始 在 越 来 越 多 的 处 理 流 
占 主导 地 位 (从 数据 处 理 到 web 请 求 处 理 )， 这 种 转变 意义 深远 。 









































图 8-6 


显示 了 我 们 HTTP 息 虫 的 asyncio 版 本 的 请 求 时 间 线 。 





























@ Python 增强 协议 (PEPs) 是 Python 社区 对 于 如 何 变 化 和 如 何 推 进 语言 的 决定 。 因为 它 是 标准 库 的 一 部 分 ， 


asyncio 将 总 是 遵守 语言 的 最 新 PEP 标准 并 且 利 用 任何 最 新 的 特性 。 
@ 大 多 数 性 能 应 用 程序 和 模块 还 是 在 Python 2.7 的 生态 系统 中 。 
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asyncio 的 调用 时 间 线 


请 求 数量 


0.9 














图 8-6 例 8-8 的 HTTP 请 求 时 间 表 


8.6 数据库 的 例子 


为 了 让 前 面 的 例子 更 具体 ， 我 们 还 制造 了 另 一 个 玩具 型 的 问题 ， 主 要 是 CPU 密集 
型 的 但 是 包含 了 潜在 的 限制 IO 的 组 件 。 我 们 将 要 计算 素数 ， 并 把 发 现 的 素数 在 人 
一 个 数据 库 中 。 数 据 可 以 是 任意 的 ,问题 则 具有 代表 性 ,代表 了 你 的 程序 有 着 要 做 
的 任何 类 型 的 重量 级 计算 , 那些 计算 的 结果 必须 得 存 入 一 个 数据 库 中 , 偷偷 地 招来 
重量 级 的 IO 惩罚 。 我 们 对 数据 库 施 加 的 限制 只 有 : 


。 有 HTTP 的 API， 这 样 我 们 就 能 够 使 用 像 前 面 的 例子 中 那样 的 代码 ”。 
。 ”响应 时 间 在 50 毫秒 的 级 别 。 
。 ”数据 库 能 够 满足 同一 时 刻 处 理 多 个 请 求 。 
































Q@ 这 不 是 必要 的 ， 它 只 是 简化 了 我 们 的 代码 。 
@ 这 对 所 有 的 分 布 式 数据 库 和 其 他 流行 的 数据 库 都 成 立 ， 比 如 Postgres、MongoDB、Riak 等 。 
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我 们 从 一 些 简单 的 代码 开始 ， 计 算 素 数 并 且 每 当 发 现 了 一 个 素数 ， 就 向 数据 库 的 


HTTP API 发 起 请 求 : 


from tornado.httpclient import HTTPClient 
import math 


httpclient = HTTPClient () 

def save prime serial (prime): 
url = "http://127.0.0.1:8080/add?prime={}".format (prime) 
response = httpclient.fetch (url) 
finish save prime (response, prime) 


def finish save prime (response, prime): 
if response.code != 200: 
print "Error saving prime: {}".format (prime) 


def check prime (number): 
if number $ 2 == 0: 
return False 
for i in xrange(3, int (math.sqrt (number)) + 1, 2): 
if number $ i == 0: 
return False 


return True 


def calculate primes serial (max number): 
for number in xrange (max number): 
if check prime (number): 
Save prime serial (number) 
return 


正如 我 们 在 串 行 例子 ( 例 8-3) 中 的 那样 ， 每 次 数据 库存 储 的 请 求 时 间 
没有 堆积 ,并 且 我 们 必须 为 我 们 所 发 现 的 每 一 个 素数 付出 这 个 代价 。 结 














(50 毫秒 ) 
就 是 ， 搜 


索 到 max_number = 8192 (产生 了 1028 个 素数 ) 花费 了 55.2 秒 。 我 们 知道 ， 
无 论 军 样 ， 正 是 因为 我 们 的 串 行 请 求 工作 方式 ， 我 们 至 少 花 费 51.4 秒 来 做 WO! 所 




















以 ， 只 是 因为 我 们 正在 做 IO 时 暂停 了 程序 ， 我 们 浪费 了 93% 的 时 间 。 





作为 蔡 代 , 我 们 想 做 的 事情 就 是 找到 改变 我 们 请 求 模式 的 方式 ,这 样 我 们 就 能 同时 
异步 地 发 出 很 多 请 求 ， 我 们 就 不 需要 如 此 难以 承担 的 IO 等 待 。 为 了 做 到 ， 我 们 创 














import grequests 
from itertools import izip 


class AsyncBatcher (object): 





建 了 一 个 AsyncBatcher 类 来 为 我 们 处 理 批量 的 请 求 ， 并 在 需要 时 发 出 请 求 ， 
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并 





GEES — =" [bateh"y. "bateh size", "save™y,, "flush"] 
def init (self, batch size): 

self.batch size = batch size 

self.batch = [] 


def save (self, prime): 





url = "http://127.0.0.1:8080/add?prime={}".format (prime) 
self.batch.append ( (url,prime)) 
if. len'(self.batch) == “self.bateh, size: 

self.flush() 





def flush (self): 
responses futures = (grequests.get (url) for url, in self.batch) 
responses = grequests.map (responses futures) 








for response, (url, prime) :in izip(responses, self.batch): 





finish save prime (response, prime) 
self.batch = [] 


现在 ， 我 们 能 够 以 与 我 们 之 前 所 做 的 同样 的 方式 前 进 。 主 要 区 别 仅仅 是 我 们 给 
AsyncBatcher 添加 了 我 们 的 新 素数 ， 并 让 它 来 处 理 什么 时 候 发 送 请 求 。 此 外 ， 
既然 我 们 正在 批量 处 理 , 我 们 必须 确保 发 送 最 后 那 批 ， 即 使 它 还 未 满 (意味 着 调用 
AsyncBatcher.flush () )。 











def calculate primes async (max number): 
batcher = AsyncBatcher(100) # 各 
for number in xrange (max number): 
if check prime (number): 
batcher.save (number) 
batcher.flush () 
EEEtUET 


@ 我 们 选择 以 100 个 请 求 为 批 次 ， 原 因 与 图 8-3 中 所 示 的 那样 类 似 。 


随 着 这 个 改变 ， 我 们 能 够 把 计算 到 max_number = 8192 的 运行 时 间 降 低 到 
4.09 秒 。 这 就 代表 了 13.5 倍 的 速度 提升 ， 而 没有 做 很 多 的 工作 。 在 一 个 类 似 实 
时 数据 处 理 的 约束 环境 下 ， 这 种 额外 的 速度 就 可 能 意味 着 区 分 一 个 系统 是 能 跟 
上 需求 还 是 落后 于 需求 〈 在 这 种 情况 下 ， 需 要 有 一 个 队列 ， 你 会 在 第 10 章 学 到 
这 些 内 容 )。 


在 图 8-7 中 ,我 们 能 看 到 这 些 变化 在 不 同 的 工作 负荷 中 影响 代码 的 运行 时 间 。 蜡 步 
代码 相对 串 行 代码 的 速度 提升 是 显著 的 ， 尽 管 我 们 还 不 是 在 原始 的 CPU 问题 上 取 
得 的 提速 。 为 了 完全 改进 这 个 问题 ， 我 们 需要 使 用 像 multiprocess 之 类 的 模块 
来 以 一 个 完全 独立 的 进程 来 处 理 问题 中 的 IO 负担 部 分 ， 而 不 会 去 拖 慢 问题 中 的 
CPU 运算 部 分 。 
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寻找 素数 和 存 入 数据 库 的 时 间 


Sneed na cdi Yi Neie ecard te nde toad dnl aren imran heen] eT 
TO sses: : : ; 串 行 i 





二 一 没有 IO 


完成 时 间 ( 秒 ) 





4 
0 2000 4000 6000 8000 10000 12000 14000 16000 18000 


探测 到 的 素数 数量 











图 8-7 ”不 同 数量 的 素数 处 理 时 间 


8.7 小 结 


当 解 决 在 现实 世界 中 和 生产 系统 中 的 问题 时 , 常常 需要 和 一 些 外 部 源 通 信 。 这 个 外 
部 源 可 能 是 一 个 在 另 一 台 服 务 器 上 运行 的 数据 库 , 另 一 个 工作 主机 , 或 者 一 个 提供 
了 必须 要 处 理 的 原始 数据 的 数据 服务 。 无 论 哪 种 情况 ， 你 的 问题 会 很 快 变 成 IO 密 
集 型 ， 意 味 着 对 输入 /输出 的 处 理 占据 了 大 部 分 运行 时 间 。 


并 发 通过 允许 你 把 潜在 的 多 个 IO 操作 交织 起 来 ， 从 而 有 助 于 IO 密集 型 的 问题 。 
这 样 就 允许 你 探索 WO 和 CPU 操作 的 基本 区 别 来 提升 整体 的 运行 时 间 。 


就 如 我 们 看 到 的 那样 ，gevent 为 异步 VO 提供 了 最 高 级 别 的 接口 。 另 一 方面 ， 
tornado 让 你 手动 控制 事件 循环 的 运行 ， 允 许 你 使 用 事件 循环 来 调度 你 想 要 的 任 
何 类 型 的 任务 。 最后, 在 Python 3.4+ 中 的 asyncio 允许 完全 控制 一 个 异步 IO 栈 。 
除了 各 种 各 样 的 抽象 级 别 , 每 个 库 为 它 的 语法 使 用 了 一 个 不 同 的 范 型 (差异 主要 源 
于 在 Python 3 以 前 缺乏 对 并 发 的 原生 支持 以 及 引入 了 yie1l9 from 声明 )。 我 们 推 
荐 从 这 一 系列 方法 中 去 获取 经 验 ， 并 基于 需要 多 少 低层 控制 来 挑选 其 中 一 个 。 
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最 后 , 我 们 采用 过 的 这 3 个 库 中 有 轻微 的 速度 差异 。 这 些 速度 差异 很 多 都 是 基于 协 
程 的 调度 方式 。 例 如 ，tornado 做 了 一 件 极 好 的 工作 来 快速 启动 异步 操作 并 快速 
让 协 程 继 续 运 行 。 另 一 方面 ， 尽 管 asyncio 看 上 去 运行 得 稍微 糟 了 一 点 ， 但 是 它 
人 允许 访问 更 低层 的 API， 并 能 够 动态 调整 。 


在 下 一 章 中 ,我们 会 采用 这 个 来 自 于 IO 密集 型 问题 的 交织 计算 的 概念 ， 并 把 它 应 
用 于 CPU 密集 型 问题 。 使 用 了 这 个 新 的 力量 ， 我 们 将 不 但 能 够 同时 运行 多 个 VO 
操作 , 而 且 也 能 够 同时 运行 许多 计算 型 的 问题 。 这 种 能 力 将 允许 你 开始 创建 完全 可 
扩展 的 程序 , 在 其 中 , 我 们 可 以 通过 仅仅 增加 更 多 的 能 够 分 别处 理 分 块 问题 的 计算 
资源 来 获得 更 多 的 速度 提升 。 
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第 9 章 





multiprocessing 模块 


读 完 本 章 之 后 你 将 能 够 回答 下 列 问 题 
。 multiprocessing 模块 提供 了 什么 ? 





进程 和 线程 的 区 别 是 什么 ? 
我 该 如 何 选 择 合适 大 小 的 进程 池 ? 
。 我 该 如 何 使 用 非 持久 队列 来 处 理 





。 进程 间 通 信 的 代价 和 好 处 是 什么 ? 


。 我 该 如 何 用 多 CPU 来 处 到 





。 ”为 什么 我 需要 加 锁 来 避免 数据 丢失 
CPython 默认 没有 使 用 多 CPU。 一 部 分 原因 是 Python 是 被 设计 用 于 单 核 领域 , 另 














一 部 分 原因 是 实际 上 有 效 的 


是 让 我 们 自己 来 做 出 选择 。 然而, 看 到 你 的 多 核 机 器 上 只 使 用 了 一 个 CPU 来 长 期 
运行 一 个 进程 是 痛苦 的 ， 所 以 在 本 章 中 我 们 





器 核 。 
备 忘 











行 化 是 相当 


工作 ? 


numpy 数据 ? 





困难 的 。Python 给 我 们 提供 











了 工具 ， 但 











会 立即 检视 各 种 方法 来 使 用 所 有 的 机 





值得 注意 的 是 我 们 在 上 面 提 到 的 是 CPython (我 们 所 有 人 都 使 用 的 通 
用 实现 ) .在 Python 语言 中 ,没有 什么 东西 阻止 使 用 多 核 系统 .CPython 


的 实现 不 能 有 效 使 用 多 核 ， 但 是 其 他 实现 ( 例如 ， 


件 事务 内 存 的 PyPy ) 可 能 不 会 被 这 个 约束 所 束缚 。 
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具有 即将 到 来 的 软 








我 们 生活 于 一 个 多 核 世界 中 一 一 笔 记 本 电脑 上 普遍 为 4 核 , 桌面 电脑 上 的 8 核 的 配 
置 将 很 快 流行 起 来 ， 并 且 10-、12- 和 15 核 CPU 的 服务 器 也 存在 。 如 果 你 的 工作 能 
被 拆 分 成 运行 于 多 核 CPU， 而 又 不 花费 太 多 工程 方面 的 努力 ， 那 么 这 是 一 个 要 考 
虑 的 明智 的 方向 。 


当 习 惯 于 在 一 个 CPU 集 上 并 行 化 问题 时 ， 你 就 能 期 待 用 n 核 达 到 倍 (nx) 的 速 
度 提升 。 如 果 你 有 一 个 4 核 的 机 器 ,， 并且 能 为 你 的 任务 使 用 全 部 的 4 核 , 它 就 有 可 
能 以 原来 运行 时 间 的 四 分 之 一 来 跑 完 。 你 不 可 能 看 到 一 个 大 于 4 倍 的 提速 。 在 实践 
中 ， 你 可 能 会 看 到 3 到 4 倍 的 增益 。 


每 一 个 额外 的 处 理 将 会 增加 通信 的 开销 和 减少 可 使 用 的 内 存 ， 所 以 你 很 少 会 得 到 
一 个 完全 的 n 倍 的 提速 。 取决 于 你 正在 解决 的 问题 ， 通 信 开 销 其 至 可 以 变 得 很 大 
以 致 于 你 能 够 看 到 很 明显 的 减速 。 这 些 类 型 的 问题 常常 是 存在 于 任何 类 型 的 并 行 
编程 中 的 复杂 性 ， 并 且 通 常 需 要 去 改变 算法 。 这 就 是 并 行 编程 常常 被 认为 是 一 种 
艺术 的 原因 。 


如 果 你 不 熟悉 Amdahl 定律 , 那 就 值得 去 阅读 一 些 背 景 材料 。 这 个 定律 揭示 了 如 果 你 
的 代码 只 有 一 小 部 分 能 够 并 行 化 ， 那 就 和 你 给 它 用 多 少 CPU 无 关 。 整 体 上 ， 它 还 是 
无 法 运行 得 更 快 。 在 你 得 到 回报 减弱 的 要 点 之 前 ， 即 使 你 的 程序 在 运行 时 有 很 大 一 
部 分 能 够 并 行 化 ， 也 只 有 有 限 数量 的 CPU 能 被 有 效 利 用 来 使 整体 进程 运行 得 更 快 。 


multiprocessing 模块 让 你 使 用 基于 进程 和 基于 线程 的 并 行 处 理 ， 在 队列 上 共 
享 任务 ,以 及 在 进程 间 共 享 数 据 。 它 主要 是 集中 于 单机 多 核 的 并 行 ( 对 多 机 并 行 来 
说 ， 有 更 好 的 选择 )。 一 个 很 普遍 的 用 法 就 是 针对 CPU 密集 型 的 问题 ,在 一 个 进程 
集 上 并 行 化 一 个 任务 。 你 可 能 也 用 它 来 并 行 化 IO 密集 型 问题 , 但 是 就 如 我 们 在 第 
8 章 所 见 的 那样 ， 有 更 好 的 工具 来 处 理 这 类 问题 (例如 ， 在 Python 3.4+ 中 的 新 
asyncio 模块 和 在 Python 2+ 中 的 gevent 或 者 tornado ) 。 


备 忘 

OpenMP 是 一 个 低层 的 多 核 接 口 一 一 你 可 能 想 知 道 是 集中 精力 于 它 上 
面 还 是 于 multiprocessing 上 面 。 我 们 在 第 7 章 中 与 Cython 和 
Pythran 在 一 起 介绍 过 它 ， 但 是 我 们 在 第 7 章 中 并 没有 全 面 涉 猫 它 。 
multiprocessing 在 一 个 更 高 的 层次 上 工作 ， 共 享 Python 的 数据 结 
构 ， 而 OpenMP 一 旦 被 编译 成 C 后 ， 就 使 用 C 的 原生 对 象 (例如 ， 整 
型 数 和 浮 点 数 ) 来 工作 。 它 只 有 在 你 编译 你 的 代码 时 才 有 意义 去 使 用 。 
如 果 你 不 去 编译 (例如 ， 如 果 你 正 使 用 高 效 的 numpy 代码 并 想 要 在 多 
核 上 运行 )， 那 么 坚持 使 用 multiprocessing 可 能 是 正确 的 途径 。 
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为 了 并 行 化 你 的 任务 , 你 必须 要 以 比 编写 一 个 串 行程 序 的 普通 方式 稍微 有 别 一 点 的 
方式 去 思考 。 你 也 必须 接受 更 大 的 困难 去 调试 一 个 并 行 任务 一 一 它 常常 是 很 令 人 泪 
丧 的 。 我 们 要 推荐 尽 可 能 地 让 并 行 保持 简单 《即使 你 压榨 不 出 你 的 机 器 的 每 一 滴 最 
后 的 力量 )， 这 样 你 就 会 保持 高 速 的 开发 。 


一 个 特别 困难 的 主题 就 是 在 并 行 系统 中 共享 状态 一 一 赁 感觉 这 好 似 应 该 简单 , 但 是 
却 带 来 了 很 多 开销 ， 并 且 难 以 做 正确 。 有 许多 应 用 案例 ， 每 一 个 都 有 不 同 的 妥协 ， 
所 以 肯定 没有 针对 所 有 情况 的 解决 方案 。 在 9.5 节 ， 我 们 将 会 用 一 只 眼 盯 着 同步 的 
开销 来 遍历 下 状态 共享 。 避 免 共 享 状态 会 让 你 的 生活 变 得 简单 很 多 。 

事实 上 ,一 个 算法 能 够 几乎 全 和 赁 有 多 少 状态 必须 要 共享 来 分 析出 它 在 并 行 环境 中 表 
现 如 何 。 例 如 ， 如 果 我 们 有 多 个 Python 进程 全 都 是 解决 一 样 的 问题 ， 而 没有 彼此 
间 相 互通 信 【〈 一 种 已 知 为 窖 迫 并行 的 情况 )， 那 当 我 们 增加 越 来 越 多 的 Python 进程 
时 ， 就 不 会 招致 多 大 的 惩罚 。 

另 一 方面 ， 如 果 每 一 个 进程 需要 和 所 有 其 他 Python 进程 来 通信 ， 那 么 通信 开销 将 
会 慢 慢 让 处 理 变 得 不 堪 重 负 , 拖 慢 了 事情 。 这 意味 着 当 我 们 增加 越 来 越 多 的 Python 
进程 时 ， 我 们 实际 上 减 慢 了 整体 性 能 。 

作为 结果 ， 有 时 必须 要 做 一 些 反 直觉 的 算法 改动 来 有 效 解决 并 行 问题 。 例 如 ， 当 人 解 
决 并 行 扩散 方程 (第 6 章 ) 时 , 每 一 个 进程 实际 上 做 了 另 一 个 进程 也 在 做 的 元 余 工 
作 。 这 种 元 余 降 低 了 所 需 的 通信 量 ， 并 且 提 高 了 整体 的 计算 速度 ! 

multiprocessing 模块 有 一 些 典 型 的 工作 : 

。 ”用 进程 或 池 对 象 来 并 行 化 一 个 CPU 密集 型 任务 。 

。 ”用 哑 元 模块 (奇怪 的 称呼 ) 在 线程 池 中 并 行 化 一 个 IO 密集 型 任务 。 

。 ”由 队列 来 共享 撒 带 的 工作 。 

。 在 并 行 工 作者 之 间 共 享 状态 ， 包 括 字 节 、 原 生 数据 类 型 、 字 典 和 列表 。 

如 果 你 从 一 种 使 用 线程 来 做 CPU 密集 型 任务 (例如 ，C++ 或 Java) 的 语言 中 转 过 
来 ， 那 么 你 应 该 知道 尽管 在 Python 中 的 线程 是 OS 原生 的 (它们 不 是 模拟 出 来 的 ， 
它们 是 真实 的 操作 系统 线程 ) ,它们 被 全 局 解释 锁 (GIL) 所 束缚 ， 所 以 同一 个 时 刻 
只 有 一 个 线程 可 以 和 Python 对 象 交互 。 

通过 使 用 进程 ， 我 们 并 行 运行 了 一 定数 量 的 Python 解释 器 ， 每 一 个 进程 都 有 私有 
的 内 存 空间 ， 有 自己 的 GIL, 并 且 每 一 个 都 串 行 运 行 (所 以 没有 GIL 之 间 的 竞争 )。 
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这 是 在 Python 中 提升 CPU 密集 型 任务 速度 的 最 简单 的 方式 。 如 果 我 们 需要 共享 状 
态 ， 那 么 我 们 就 需要 增加 一 些 通 信 开 销 。 我 们 在 9.5 节 中 会 进行 探索 。 


如 果 你 用 numpy 数组 工作 ， 你 可 能 想 知道 你 是 否 可 以 创建 一 个 更 大 的 数组 〈 例 如 ， 
一 个 大 2 维和 矩阵 )， 以 及 是 否 可 以 让 进程 并 行 工 作 于 分 段 数组 。 你 可 以 ， 但 是 通过 
试 错 难 以 发 现 怎样 做 ， 所 以 在 9.6 节 中 ， 我 们 会 经 历 一 遍 在 4 个 CPU 之 间 共 享 一 
个 6.4GB 的 numpy 数组 。 与 其 传送 部 分 拷贝 数据 (至 少 会 让 在 RAM 中 的 工作 集 
大 小 翻 倍 ， 并 且 会 产生 巨大 的 通信 开销 ) ， 我 们 在 进程 间 共 享 底层 的 数组 字 节 。 这 
是 一 个 在 一 台 机 器 上 的 本 地 工作 者 之 间 共 享 大 数组 的 理想 方式 。 

备 忘 
这 里 ， 我 们 是 在 基于 *nix 的 机 器 上 讨论 multiprocessing (本 章 是 
用 ubuntu 来 写 的 ,代码 应 该 能 不 做 改动 在 Mac 上 运行 ). 对 于 Windows 
机 器 ， 你 应 该 检查 官方 文档 。 













































































在 本 章 接 下 来 中 ， 我 们 会 硬 编码 一 定数 量 的 进程 (NUM_PROCESSES=4) 来 在 Ian 
笔记 本 上 匹配 4 个 物理 核 。 默 认 情 况 下 ，multiprocessing 将 使 用 它 能 见 到 的 
尽 可 能 多 的 核 (机 器 有 8 核 一 一 4 CPU 和 4 超 线程 )。 通 常 你 会 避免 硬 编码 进程 的 
数量 来 创建 ， 除 非 你 有 特别 的 要 求 来 管理 你 的 资源 。 






























































9.1 multiprocessing 模块 综述 


multiprocessing 模块 在 Python 2.6 中 被 引入 ， 通 过 采用 已 经 存在 的 pyProcessing 模 

块 ， 把 它 合 人 Python 的 内 置 库 集合 中 。 它 的 主要 组 件 是 : 

进程 
一 个 当前 进程 的 派生 (forked) 拷贝 ,创建 了 一 个 新 的 进程 标识 符 ， 并 且 任 务 
在 操作 系统 中 以 一 个 独立 的 子 进程 运行 。 你 可 以 启动 并 查询 进程 的 状态 并 给 它 
提供 一 个 目标 方法 来 运行 。 






































包装 了 进程 或 线程 。 在 一 个 方便 的 工作 者 线程 池 中 共享 一 块 工作 并 返回 聚合 的 
结果 。 


队列 
一 个 先进 先 出 (FIFP) 的 队列 允许 多 个 生产 者 和 消费 者 。 
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管理 者 


一 个 单 向 或 双向 的 在 两 个 进程 间 的 通信 渠道 





ctypes 





允许 在 进程 派生 (forked) 后 ， 在 父子 进程 | 
数 、 浮 点 数 和 字 节 数 )。 





同步 原 语 
锁 和 信号 量 在 进程 间 同步 控制 流 。 
备 忘 


上 共享 原生 数据 类 型 (例如 ， 整 型 


在 Python 3.2 中 引入 了 concurrent.futures 模块 (通过 PEP 
3148 )， 它 通过 一 个 更 简单 的 基于 Java 的 java.util.concurrent 
接口 提供 了 multiprocessing 的 核心 行为 。 它 向 后 兼容 于 更 早 的 


Python 版 本 。 我们 在 这 里 不 去 提 它 ， 


因为 它 不 像 multiprocessing 


那样 灵活 , 但 是 我 们 怀疑 随 着 Python 3+ 越 来 越 多 地 被 采用 , 我 们 将 看 
到 它 有 朝 一 日 会 取代 multiprocessind。 








在 本 章 余 下 部 分 ， 我 们 会 介绍 一 组 例子 来 演示 使 用 这 个 模块 的 普遍 方法 。 


我 们 将 使 用 蒙特 卡 罗 方 法 由 一 个 进程 池 或 者 线程 池 来 估算 pi 值 ,使 用 常规 的 Python 
和 numpy。 这 是 一 个 简单 问题 ， 具 有 很 好 理解 的 复杂 性 ， 所 以 它 能 轻松 地 并 行 化 。 
我 们 也 能 够 从 使 用 numpy 的 线程 中 看 到 一 个 预料 之 外 的 结果 。 接 下 来 ， 我 们 会 使 
用 相同 的 池 方法 来 搜索 素数 。 我 们 会 调查 搜索 素数 的 不 可 预测 的 复杂 性 ,并 且 看 看 






























































我 们 怎样 能 有 效 (和 无 效 !) 地 拆 分 工作 量 来 最 大 化 地 利用 我 们 的 计算 资源 。 我 们 





会 通过 转移 到 队列 来 完成 素数 搜索 ， 在 那里 我 们 











会 引入 Process 对 象 来 取代 池 并 


且 使 用 一 个 工作 和 毒药 列表 来 控制 工作 者 的 生命 周期 。 


接 下 来 ， 我 们 会 通过 处 理 进 程 间 通信 (IPC) 来 验证 一 个 小 的 可 能 的 素数 集合 。 通 
过 在 多 个 CPU 之 间 拆 分 每 一 个 数字 的 工作 负载 ， 























如 果 找 到 了 一 个 因子 ， 我 们 就 使 














用 IPC 来 提早 结束 搜索 ， 这 样 我 们 能 够 显著 地 击败 单个 CPU 搜索 进程 的 速度 。 我 
们 将 会 涉及 共享 Python 对 象 、OS 原 语 和 一 个 Redis 服务 器 来 调查 每 一 种 方法 在 复 





杂 性 和 扩展 性 上 面 的 妥协 。 


我 们 可 以 在 4 个 CPU 之 间 共 享 一 个 6.4GB 的 nu 
作 负 载 而 不 用 拷贝 数据 。 如 果 你 有 可 并 行 化 操作 
































mpy 数组 , 从 而 拆 分 一 个 巨大 的 工 
的 大 数组 , 那么 这 个 技术 应 该 为 你 


























带 来 巨大 的 速度 提升 ， 因 为 你 可 以 在 RAM 中 分 





CL 更 少 的 空间 ， 找 贝 更 少 的 数据 。 
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最 后 ， 我 们 会 看 看 在 进程 间 同 步 存 取 一 个 文件 和 一 个 变量 (作为 一 个 Value) 而 不 
破坏 数据 ， 从 而 演示 如 何 正 确 地 锁 住 共享 状态 。 
忘 
PyPy (在 第 7 章 讨 论 过 ) 全 面 支持 multiprocessing 库 ， 接 下 来 
的 CPython 例子 (尽管 在 写作 时 没有 numpy 的 例子 ) 使 用 PyPy 全 都 
运行 得 快 很 多 。 如 果 你 只 使 用 CPython 代码 (没有 C 扩展 或 者 更 多 的 
复杂 库 ) 来 做 并 行 处 理 ， 那 么 PyPy 可 能 就 会 对 你 快速 取胜 。 




















本 章 (和 整 本 书 ) 集中 于 Linux 上 。Linux 具有 派生 (fork) 进程 ,通过 克隆 父 进 
程 来 创建 新 进程 。Windows 缺少 fork， 所 以 multiprocessing 模块 施加 了 一 
些 Windows 特有 的 约束 ， 如 果 你 要 使 用 Windows 平台 ， 我 们 劝 你 要 检查 一 下 。 


9.2 ”使 用 蒙特 卡 罗 方 法 来 估算 pi 


我 们 可 以 通过 向 一 个 由 一 个 单位 圆 所 代表 的 飞镖 靶子 投掷 几 千 枚 虚构 的 飞镖 
来 估算 pi。 落 入 圆圈 的 边缘 内 和 边缘 外 的 飞镖 数量 之 间 的 关系 将 允许 我 们 来 趋 
近 pi。 

这 是 第 一 个 理想 问题 , 因为 我 们 可 以 把 整个 工作 负载 在 一 定数 量 的 进程 间 均 匀 地 拆 
分 ， 每 一 个 运行 在 一 个 独立 的 CPU 上 面 。 每 一 个 进程 将 会 同时 结束 ， 因 为 每 一 个 
进程 的 工作 负载 是 均等 的 ， 所 以 在 我 们 给 问题 增加 新 的 CPU 和 超 线程 时 ， 我 们 可 
以 调查 可 得 到 的 速度 提升 。 


在 图 9-1 中 , 我 们 朝 单位 圆 投掷 了 10 000 枚 飞镖 , 其 中 一 定 比例 的 飞镖 落 入 了 画 出 
来 的 单位 圆 的 四 等 分 之 内 。 这 个 估算 很 坏 一 一 10 000 枚 飞镖 投 扼 没 有 可 靠 地 给 出 我 
们 三 小 数位 的 结果 。 如 果 你 运行 自己 的 代码 ， 会 看 到 每 一 轮 佑 算 值 在 3.0 到 3.2 之 
间 变 化 。 

为 了 对 第 一 个 三 小 数位 有 信心 ， 我 们 需要 产生 10 000 000 个 随机 飞镖 投掷 。 这 是 低 效 
的 (存在 更 好 的 pi 值 估算 方法 ) ， 但 是 它 相 当 方 便 地 演示 了 使 用 multiprocessing 
做 并 行 化 的 好 处 。 


随 着 蒙特 卡 罗 方 法 ， 我 们 使 用 Pythagorean 理论 来 测试 一 个 飞镖 是 否 在 我 们 的 
内 着 落 : 























































































































V(x +y)<r 
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因为 我 们 使 用 了 一 个 单位 圆 ， 所 以 我 们 能 够 通过 移 除 平 方 根 操作 (1=1) 来 优化 ， 
给 我 们 留 以 一 个 简化 的 表达 式 去 实现 : 





: 使 用 10000 次 蒙特 卡 罗 飞 镖 投掷 估算 pi 为 3.1472 
< 一 ve ou Mm ei 
bp g 洲 wy > 了 . 和 


[to 


























9-1 使 用 蒙特 卡 罗 方 法 来 估算 pi 
我 们 在 例 9-1 中 会 看 到 一 个 循环 的 版 本 。 我 们 会 实现 一 个 普通 的 Python 版 本 ， 以 
及 以 后 实现 一 个 numpy 版 本 ， 我 们 都 将 使 用 线程 和 进程 来 并 行 化 问题 。 


9.3 ”使 用 多 进程 和 多 线程 来 估算 pi 


理解 一 个 普通 的 Python 实现 更 简单 ， 所 以 我 们 在 本 节 中 会 以 它 开 始 ， 在 一 个 循环 
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中 使 用 浮 点 对 象 。 我 们 会 使 用 多 进程 来 用 到 所 有 可 利用 的 CPU 并 行 化 它 ， 并 且 当 
我 们 使 用 更 多 的 CPU 时 ， 我 们 会 把 机 器 的 状态 可 视 化 。 
9.3.1 使 用 Python 对 象 
Python 的 实现 容易 模仿 ， 但 是 它 带 来 了 一 个 开销 ， 因 为 每 个 Python 浮 点 对 象 必须 
要 依次 被 管理 、 引 用 和 同步 化 。 这 个 开销 减 慢 了 我 们 的 运行 时 间 , 但 是 它 带 给 了 我 
们 思考 时 间 ， 因 为 很 快 就 能 实现 好 。 通 过 并 行 化 这 个 版 本 , 我们 几乎 没有 什么 额外 
工作 却 得 到 了 附加 的 速度 提升 。 

例 9-2 显示 了 Python 例子 的 三 个 实现 : 
。 不 使 用 multiprocessing ( 称 之 为 “ 串 行 ”)。 


。 ”使 用 多 线程 。 
。 ”使 用 多 进程 。 





















































在 串 行 、 多 线程 和 多 进程 下 ， 使 用 对 象 做 100000000 次 飞镖 投掷 来 估算 pi 的 时 间 
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140 


120 


“党 


100 


80 


执行 时 间 秒 〉- 越 小 越 好 


60 


40 





20 








工作 者 数量 





9-2 工作 于 串 行 、 多 线程 和 多 进程 中 


当 我 们 使 用 超过 一 个 线程 或 进程 时 ， 我 们 让 Python 计算 相同 总 数量 的 飞镖 投掷 ， 
让 Python 把 工作 均匀 地 在 工作 者 之 间 划 分 。 如 果 我 们 使 用 Python 实现 ， 想 要 总 共 
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投掷 100 000 000 次 飞镖 ， 并 且 我 们 使 用 两 个 工作 者 ， 那 么 我 们 就 会 让 这 两 个 线程 
或 进程 都 给 每 个 工作 者 生成 50 000 000 次 飞镖 投掷 。 


使 用 一 个 线程 大 概 花 费 120 秒 。 使 用 两 个 或 更 多 线程 花费 更 久 。 通过 使 用 两 个 或 更 
多 进程 ， 我 们 缩短 了 运行 时 间 。 不 使 用 多 进程 或 多 线程 〈 串 行 实现 ) 和 用 单 进程 运 
行 的 效果 一 样 。 


通过 使 用 多 进程 ， 当 在 使 用 双核 或 四 核 的 Ian 笔记 本 电脑 上 运行 时 ， 我 们 得 到 了 
一 个 线性 的 加 速 。 对 于 8 个 工作 者 的 情况 ， 我 们 会 使 用 英特尔 的 超 线程 技术 一 一 
笔记 本 电脑 只 有 4 个 物理 核 ， 所 以 我 们 几乎 不 能 通过 运行 8 个 进程 来 获得 额外 的 
速度 提升 。 


例 9-1 展示 了 我 们 Python 版 本 的 pi 估算 器 。 如 果 我 们 使 用 多 线程 , 每 条 指令 被 GIL 
所 束缚 ， 所 以 尽管 每 个 线程 能 够 在 独立 的 CPU 上 运行 ， 但 是 它 只 会 在 没有 其 他 线 
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程 运行 时 才 会 运行 。 进 程 的 版 本 不 受 这 种 约束 的 束缚 ， 因 为 每 个 派生 (fork) 出 来 
的 进程 都 有 一 个 私有 的 Python 解释 器 运行 在 一 个 单独 线程 中 一 一 因为 没有 共享 对 


























象 ， 所 以 没有 GIL 竞争 。 我 们 使 用 了 Python 内 置 的 随机 数 生成 器 ， 但 是 看 看 9.3.2 
节 中 的 一 些 注意 点 ， 是 关于 并 行 化 随机 数 序列 存在 的 风险 。 


例 9-1 在 Python 中 使 用 一 个 循环 来 估算 pi 


def estimate nbr points in quarter circle (nbr_ estimates) : 























nbr trials in quarter unit circle = 0 





for step in xrange (int (nbr estimates)): 
x = random.uniform(0, 1) 
y = random.uniform(0, 1) 
LS Tn Unit Clrele SA 0 
nbr trials in quarter unit circle += is in unit circle 


return nbr trials in quarter unit circle 
例 9-2 展示 了 _ main _ 代码 块 。 注 意 我 们 在 启动 定时 器 前 就 构建 了 池 。 生 成 线 
程 相对 快速 ， 生 成 进程 则 涉及 一 个 派生 拷贝 (fork)， 这 要 花费 可 度量 的 不 到 一 秒 
的 时 间 。 我 们 在 图 9-2 中 忽略 了 这 个 开销 ， 因 为 它 占 整体 执行 时 间 的 一 个 微 不 足 
道 的 部 分 。 


例 9-2 使 用 一 个 循环 来 估算 pi 的 main 


from multiprocessing import Pool 



































if name == " main '" 





nbr_ samples in total = le8 
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nbr parallel blocks = 4 

pool = Pool (processes=nbr parallel blocks) 

nbr_samples per worker = nbr samples in total / nbr parallel blocks 
print "Making {} samples per worker".format (nbr samples per worker) 
nbr trials per process = [nbr samples per worker] * nbr Parallel blocks 
tl = time.time() 

nbr in unit circles = pool.map (calculate pi, nbr trials per process) 





pi estimate = sum(nbr in unit circles) * 4 / nbr samples in total 
print "Estimated pi", pi estimate 
print "Delta:", time.time() - tl1 


我 们 创建 了 一 个 包含 nbr_estimates 的 列表 ,被 工作 者 的 数量 整除 。 这 个 新 参 
数 将 会 被 送 给 每 一 个 工作 者 。 在 执行 之 后 , 我 们 会 收 到 相同 数量 的 返回 结果 , 我们 
会 把 这 些 结果 累加 起 来 去 估算 单位 圆 内 的 飞镖 数量 。 


我 们 从 multiprocessing 导入 了 进程 池 。 我 们 本 也 能 用 from multiprocessing. 
qummy import Pool 来 得 到 一 个 线程 的 版 本 一 一 “dummy” 这 个 名 字 相 当 误 导 人 (我 
们 坦承 并 不 理解 为 什么 用 这 种 方式 来 命名 )， 它 仪 仅 是 一 层 薄 薄 的 threading 模块 的 包 
装 器 来 表示 与 进程 池 相 同 的 接口 。 




















盐 x 和 东 . 
琴曲 
y 值得 注意 的 是 我 们 创建 的 每 一 个 进程 从 系统 消耗 了 一 些 RAM. 我 们 
伏 可 以 期 望 一 个 使 用 标准 库 的 派生 (fork ) 进程 占用 10MB 到 20MB 
数量 级 的 RAM; 如 果 你 使 用 了 很 多 库 和 数据 ,那么 你 可 以 期 望 每 一 
个 派生 ( fork ) 拷贝 进程 会 占用 几 百 兆 字 节 。 在 一 个 有 RAM 约束 的 
系统 中 , 这 可 能 是 一 个 明显 问题 一 一 如 果 你 用 完了 RAM, 系统 就 转 
而 使 用 硬盘 的 交换 空间 ， 那 么 任何 并 行 优势 将 会 在 慢 速 的 RAM 和 
硬盘 之 间 的 来 回 换 页 中 发 生 巨 大 的 损失 。 








下 面 的 图 标 绘 了 Ian 的 笔记 本 电脑 的 四 个 物理 核 平均 CPU 利用 率 以 及 它们 相关 的 
四 个 超 线程 (每 个 超 线程 运行 于 一 个 物理 核 上 的 未 利用 的 硅 片 上 )。 这 些 图 标 所 采 
集 的 数据 包括 了 第 一 个 Python 进程 的 启动 时 间 以 及 启动 多 个 子 进程 的 开销 。CPU 
采集 器 记录 了 笔记 本 电脑 的 全 部 状态 , 而 不 仅仅 是 被 这 个 任务 所 使 用 的 CPU 时 间 。 
注意 下 面 的 图 表 使 用 了 一 个 不 同 的 计时 方法 来 创建 ， 比 图 9-2 中 的 采样 率 更 低 ， 所 
以 整体 运行 时 间 稍 稍 长 了 一 点 。 

图 9-3 中 采用 只 有 一 个 进程 的 进程 池 (和 父 进 程 一 起 运行 ) 的 执行 表现 显示 出 当 创 
建 进程 池 时 一 开始 有 几 秒 的 开销 , 接着 一 个 稳定 的 接近 于 100% 的 CPU 利用 率 贯穿 
于 整个 运行 过 程 中 。 我 们 有 效 地 用 一 个 进程 来 使 用 了 一 核 。 
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接着 我 们 会 增加 第 二 个 进程 ， 实 际 说 来 就 是 Pool (Processes = 2) 。 就 如 你 能 

在 图 9-4 中 看 到 的 那样 ， 增 加 第 二 个 进程 大 概 把 执行 时 间 缩 短 到 一 半 ， 即 56 秒 ， 

并 且 两 个 CPU 被 充分 地 占用 。 这 是 我 们 能 期 待 的 最 好 结果 一 一 我 们 已 经 有 效 地 使 
用 了 所 有 的 新 计算 资源 并 且 我 们 没有 让 其 他 开销 来 减 慢 任 何 运 行 速度 ， 比 如 通信 、 

磁盘 换 页 ， 或 者 想 要 使 用 相同 CPU 的 竞 态 进程 间 的 竞争 。 

































































CPU 利 用 率 随 时 间 变 化 
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CPU (4 核 ，4 超 线程 ) 





时 间 ( 秒 ) 








图 9-3 ”使 用 Python 对 象 和 一 个 进程 来 估算 pi 





CPU 利用 率 随 时 间 变 化 
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图 9-4 使 用 Python 对 象 和 两 个 进程 来 估算 pi 
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图 9-5 显示 了 当 使 用 全 部 4 个 物理 核 后 的 结果 一 一 现在 我 们 正在 使 用 这 人 台 笔 记 本 电 
脑 的 全 部 能 量 。 执 行 时 间 大 约 是 单 进程 版 本 的 四 分 之 一 ， 在 27 秒 左右 。 









































CPU 利 用 率 随时 间 变 化 
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图 9-5 使 用 Python 对 象 和 4 个 进程 来 估算 pi 





通过 切换 到 8 个 进程 ， 就 如 在 图 9-6 中 所 见 的 那样 ,我 们 无 法 再 达到 远 超 4 个 进程 
版 本 的 速度 提升 。 那 是 因为 4 个 超 线程 只 能 够 从 CPU 上 的 闲置 硅 片 中 榨 出 一 点 点 
额外 的 处 理 能 力 ，4 个 CPU 已 经 是 最 大 化 地 得 到 利用 了 。 


这 些 图 表 显 示 出 我 们 在 每 一 步 正 有 效 地 利用 了 超出 可 用 CPU 的 资源 ， 超 线程 资源 
是 一 个 很 小 的 附加 值 。 使 用 超 线程 的 最 大 问题 就 是 CPython 使 用 了 很 多 RAM 
超 线 程 不 是 缓存 友好 的 ， 所 以 对 每 个 蕊 片上 的 剩余 资源 的 利用 效率 很 低 。 就 如 我 们 
在 下 一 节 所 见 的 那样 ，numpy 更 好 地 利用 了 这 些 资源 。 


备 忘 

在 我 们 的 经 验 中 ， 如 果 有 足够 的 剩余 计算 资源 ， 超 线程 能 够 给 出 直达 
30% 的 性 能 收益 。 例如 , 如 果 你 有 一 个 混合 了 浮 点 数 和 整数 的 算术 运算 ， 
而 不 仅仅 是 我 们 这 里 的 浮 点 数 运算 , 那么 它 就 起 效果 了 。 通过 混合 资源 
需求 ， 超 线程 能 够 调度 更 多 的 CPU 硅 片 来 并 发 工作 。 一 般 情况 下 ， 我 
们 把 超 线程 视 作 一 个 附加 值 , 而 不 是 一 个 优化 目标 资源 , 因为 增加 更 多 
的 CPU 或 许 比 调整 你 的 代码 (增加 了 支持 开销 ) 来 得 更 经 济 。 
























































现在 我 们 会 切换 到 使 用 一 个 进程 中 的 多 线程 , 而 不 是 多 进程 ,就 如 你 会 看 到 的 那样 ， 
由 “GIL 竞争 ”所 导致 的 开销 实际 上 让 我 们 的 代码 运行 得 更 慢 了 。 
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图 9-6 


图 9-7 
2.7 相 


使 用 Python 对 象 和 8 个 进程 来 估算 pi 仅 有 微不足道 的 额外 收益 








显示 出 两 个 线程 在 一 个 使 用 Python 2.6 的 双核 系统 上 竞争 (会 产生 和 Python 












































司 的 效果 ) 一 一 这 是 从 David Beazley 的 博客 文章 中 得 到 允许 所 采用 的 GIL 
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图 ，“Python GIL 的 可 视 化 ”。 更 深 的 红色 调 ( 彩 图 见 本 书 配套 网 站 ， 下 同 ) 




















显示 了 Python 线程 在 不 断 重 复 地 企图 获得 GIL 但 是 失败 了 。 更 浅 的 绿色 调 代表 一 
个 运行 中 的 线程 。 白 色 显 示 了 一 个 线程 闲置 \idle) 的 大 略 周期 。 我 们 可 以 看 到 当 
给 CPython 中 的 CPU 密集 型 任务 添加 多 线程 时 ， 会 有 一 个 开销 。David Beazley 在 
“理解 Python GIL” 中 做 出 了 解释 。 Python 中 的 多 线程 对 于 IO 密集 型 任务 有 优势 ， 



















































































但 是 对 CPU 密集 型 问题 则 是 一 个 糟糕 的 选择 。 








2 CPU 密集 型 线程 
2 CPU 


线程 2 











图 9-7 


Python 线程 在 一 个 双核 机 器 上 竞争 

















每 当 一 个 线程 被 唤醒 并 设法 获取 GIL (无 论 是 否 可 用 ) 时 ， 它 就 使 用 了 系统 资源 。 
如 果 一 个 线程 忙碌 ,那么 其 他 线程 将 重复 不 断 地 唤醒 并 设法 获取 GIL。 这 些 重复 的 
企图 变 得 代价 昂贵 。David Beazley 有 一 个 相互 交互 的 标 绘图 集 来 演示 这 个 问题 ， 

你 可 以 放大 来 看 看 在 多 个 CPU 的 多 线程 上 每 一 个 失败 的 获取 GIL 的 企图 。 注 意 这 


只 是 多 线程 运行 于 一 个 多 核 系统 上 的 问题 









































一 个 具有 多 线程 的 单 核 CPU 没有 








“GIL 竞争 ”。 这 在 David 网 站 上 的 4 线程 可 缩放 视觉 图 中 很 容易 见 到 。 























如 果 线 程 没有 在 竞争 GIL, 但 是 却 有 效率 地 把 GIL 传 来 传 去 , 那么 我 们 就 不 要 期 望 
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看 见 任 何 的 深 红色 调 。 取而代之 的 是 , 我 们 可 能 会 期 待 正 处 于 等 待 中 的 线程 继续 等 
待 而 又 不 消耗 资源 。 避 兔 了 争 用 GIL 就 会 使 整体 运行 时 间 缩 短 ,但 是 因为 GIL, 它 
还 是 不 比 使 用 一 个 单线 程 来 得 更 快 。 如 果 没 有 GIL, 每 个 线程 就 会 并 行 运行 而 没有 
任何 的 等 待 ， 这 样 线程 就 会 充分 利用 系统 的 所 有 资源 。 
值得 注意 的 是 CPU 密集 型 问题 上 多 线程 的 负面 效果 在 Python 3.2+ 中 得 到 了 合理 的 结果 : 
串 行 化 地 去 执行 并 发 运行 的 Python 线程 的 机 制 ( 就 是 通常 所 知 的 GIL 或 者 
全 局 解释 锁 ) 已 经 被 重 写 了 。 在 这 些 目标 中 ， 有 更 可 预测 的 切换 时 间 间 隔 和 
降低 了 因为 锁 竞 争 及 随 之 带 来 的 系统 调用 的 数量 而 引起 的 开销 。 “检查 时 间 
间隔 ”的 概念 允许 放弃 线程 切换 并 由 一 个 用 秒 级 来 表达 的 绝对 时 长 来 取代 。 











Raymon Hettinger 


图 9-8 展示 了 与 我 们 在 图 9-5 中 所 用 的 相同 的 代码 运行 结果 ， 但 是 用 线程 来 取代 了 
进程 。 尽管 正在 使 用 一 定数 量 的 CPU, 但 每 一 个 CPU 却 只 是 稍稍 分 享 了 工作 负载 。 
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9-8 使 用 Python 对 象 和 4 个 线程 来 估算 pi 
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如 果 每 个 线程 正在 没有 GIL 的 情况 下 和 运行， 那么 我 们 会 看 到 在 4 个 CPU 上 100% 
的 CPU 利用 率 。 但 有 了 GIL， 每 个 CPU 就 只 是 被 部 分 使 用 ( 归 因 于 GIL)， 此 外 
由 于 GIL 竞争 ， 它 们 运行 得 比 我 们 所 期 望 的 还 要 慢 。 


对 比 图 9-3， 每 个 进程 执行 相同 的 工作 用 了 差不多 120 秒 而 不 是 160 秒 。 


9.3.2 并行 系统 中 的 随机 数 

生成 一 个 良好 的 随机 数 序列 是 一 个 困难 的 问题 ,如 果 你 设法 自己 做 , 就 很 容易 出 错 。 
并 行 地 快速 得 到 一 个 良好 的 序列 甚至 更 难 一 一 突然 间 你 就 不 得 不 担心 你 是 否 在 并 
行进 程 中 取 到 了 重复 性 或 者 相关 性 的 序列 。 


我 们 在 例 9-1 中 已 经 使 用 了 Python 内 置 的 随机 数 生成 器 ， 在 下 一 节 的 例 9-3 中 
我 们 会 使 用 numpy 的 随机 数 生成 器 。 在 这 两 种 情况 下 ， 随 机 数 生成 器 在 它们 的 
派生 拷贝 (fork) 进程 中 做 种 子 。 对 于 Python 的 random 例子 而 言 ， 做 种 子 由 
multiprocessing 内 部 来 处 理 一 一 如 果 在 派生 拷贝 (fork) 期 间 ， 它 看 到 
random 在 名 字 空 间 中 ,那么 它 就 在 每 一 个 新 进程 中 强制 调用 来 为 随机 数 生成 器 
做 种 子 。 


在 接 下 来 的 numpy 例子 中 , 我 们 必须 要 显 式 地 去 做 。 如 果 你 忘 了 给 使 用 numpy 的 
随机 数 序列 做 种 子 ， 那 么 你 派生 拷贝 (fork) 的 每 一 个 进程 将 生成 一 个 完全 一 模 一 
样 的 随机 数 序列 。 


如 果 你 关心 并 行进 程 所 使 用 的 随机 数 的 质量 , 那 我 们 就 劝 你 去 研究 这 个 主题 , 因为 
我 们 不 会 在 这 里 讨论 。 也 许 numpy 和 Python 的 随机 数 生成 器 已 经 足够 好 ,但 是 如 
果 显 著 的 成 果 要 取决 于 随机 序列 的 质量 (例如 ， 对 医疗 或 金融 系统 来 说 )， 那 么 你 
必须 要 在 这 个 领域 攻读 。 


9.3.3 ”使 用 numpy 
在 本 节 中 ， 我 们 会 切换 到 使 用 numpy。 我 们 的 飞镖 投 撕 问 题 是 理想 的 numpy 矢量 
化 操作 一 一 我 们 生成 了 相同 的 估算 值 超过 50 次 ， 比 之 前 的 Python 例子 要 快 。 


当 解 决 相同 的 问题 时 ，numpy 比 纯 Python 要 快 的 主要 原因 是 它 在 RAM 的 连续 块 
中 以 一 个 很 低级 的 层次 来 创建 和 操控 相同 的 对 象 类 型 , 而 不 是 创建 许多 更 高 层次 的 
Python 对 象 ， 每 一 个 高 级 对 象 需要 独立 的 管理 和 寻 址 。 

因为 numpy 对 缓存 更 友好 ， 所 以 我 们 在 使 用 4 个 超 线程 时 ， 也 会 得 到 一 个 小 小 的 
速度 提升 。 我 们 用 纯 Python 版 本 无 法 得 到 这 种 速度 提升 ， 因 为 更 大 的 Python 对 象 
没有 有 效 地 使 用 缓存 。 
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在 图 9-9 中 ， 我 们 看 到 了 三 个 场景 ， 

。 不 用 multiprocessing ( 称 之 为 “ 串 行 )。 
。 ”使 用 多 线程 。 

。 ”使 用 多 进程。 


串 行 和 单 工作 者 版 本 以 相同 的 速度 运行 一 没有 用 numpy 来 使 用 多 线程 的 开销 
(当然 只 有 一 个 工作 者 ， 也 就 没有 速度 提升 )。 


当 使 用 多 进程 时 , 我 们 看 到 每 一 个 附加 的 CPU 上 一 个 经 典 的 100% 的 利用 率 。 结 
就 是 在 图 9-3、 图 9-4、 图 9-5 和 图 9-6 中 所 展示 的 标 绘图 的 镜像 , 但 是 使 用 numpy， 
代码 运行 速度 明显 快 了 很 多 。 


有 趣 的 是 ， 对 线程 版 本 来 说 ， 使 用 更 多 的 线程 就 运行 得 更 快 一 一 这 与 纯 Python 的 
情况 表现 相反 , 纯 Python 版 本 的 多 线程 反而 让 示例 运行 得 更 慢 。 就 如 在 SciPy wiki 
上 所 讨论 的 那样 ， 通 过 工作 于 GIL 之 外 ，numpy 能 够 用 多 线程 达到 相同 级 别 的 额 
外 加 速 。 



























































在 串 行 、 多 线程 和 多 进程 下 ， 使 用 numpy 做 100000000 次 飞镖 投掷 来 估算 pi 的 时 间 


越 小 越 好 


执行 时 间 〈 秒 ) 











工作 者 数量 





9-9 使 用 numpy 工作 于 串 行 、 多 线程 和 多 进程 
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使 用 多 进程 给 我 们 一 个 可 预测 的 速度 提升 , 就 如 在 纯 Python 的 例子 中 所 做 的 那样 。 
第 二 个 CPU 让 速度 翻 倍 ， 而 使 用 4 个 CPU 则 让 速度 提高 4 倍 。 


例 9-3 展示 了 我 们 代码 的 矢量 化 形式 。 注 意 随机 数 生成 器 在 这 个 函数 被 调用 的 时 候 
做 种 子 。 对 于 线程 的 版 本 来 说 , 这 不 是 必须 的 ， 因 为 每 个 线程 共享 了 相同 的 随机 数 
生成 器 ， 并且 它们 串 行 地 去 访问 该 生成 器 。 对 于 进程 版 本 来 说 ， 因 为 每 个 新 进程 都 
是 一 个 派生 进程 (fork)， 所 以 所 有 派生 (folk) 的 版 本 将 会 共享 相同 的 状态 。 这 意 
味 着 在 每 个 随机 数 调 用 中 会 返回 相同 的 序列 ! 调用 seeqd () 应 该 确保 每 个 派生 
(folk) 进程 生成 一 个 唯一 的 随机 数 序列 。 回 头 看 看 9.3.2 节 ， 有 一 些 关 于 并 行 化 随 
机 数 序列 的 风险 的 提示 。 


例 9-3 使 用 numpy 估算 Pi 


def estimate nbr _ points in quarter circle (nbr_ samples): 
# set random seed for numpy in each new process 
# else the fork will mean they all share the same state 
np.randonm. seed () 
xs = np.random.uniform(0, 1, nbr samples) 
ys = np.random.uniform(0, 1, nbr samples) 


























estimate inside quarter unit circle = (xs * xs + ys * ys) <= 1 
nbr trials in quarter unit circle = np.sum(estimate inside quarter unit circle) 











return nbr trials in quarter unit circle 


一 个 简短 的 代码 分 析 显 示 当 用 多 线程 运行 并 且 很 好 地 并 行 化 调用 (xs * xs + ys 
* ys) <= 1 时 ， 在 这 人 台 机 器 上 对 random 的 调用 还 是 运行 得 慢 了 一 点 。 调 用 随机 
数 生成 器 是 受制 于 GIL 的 ， 因 为 内 部 的 状态 变量 是 一 个 Python 对 象 。 


理解 这 个 过 程 是 基础 而 可 靠 的 : 


1. 注释 掉 所 有 的 numpy 行 ， 并 且 用 没有 线程 的 串 行 版 本 来 运行 。 运 行 几 次 并 在 
_ main 中 使 用 time.time () 来 记录 执行 时 间 。 


2. 添加 回去 一 行 (首先 ， 我 们 增加 xs = np.random.uniform(...) ， 接 着 运行 
几 次 ， 再 次 记录 完成 时 间 )。 


3. 添加 回去 下 一 行 (现在 ,增加 ys = …)， 再 次 运行 并 记录 完成 时 间 。 


4. 重复 地 添加 回去 ， 包 含 nbr trials_ in quarter unit circle=np.sum(...) 
行 。 






























































5. 再 次 重复 这 个 过 程 ， 但 这 次 有 4 个 线程 。 逐 行 重复 。 


6. 比较 无 线程 时 和 有 4 个 线程 时 每 一 个 步 又 的 运行 时 间 差 别 。 











multiprocessin 209 
卫生 8 二 0 攻 


s 
异步 社区 会 员 woshigedushuren(1312002097 量 版 权 


因为 我 们 并 行 运行 代码 ， 所 以 就 更 难 使 用 像 1ine_pProfilez 或 者 cprofile 之 
类 的 工具 了 。 记 录 原 始 运行 时 间 并 观察 不 同 配置 的 表现 差异 要 花 一 点 耐心 , 但 是 却 
给 出 了 确凿 的 证 据 来 引出 结论 。 
忘 
如 果 你 想 要 理解 串 行 调用 uniform 的 行为 , 那 就 看 一 看 在 numpy 源 
码 中 的 mtrangd 代码 并 在 mtrand.pyx 中 跟踪 调用 uniform。 如 果 你 
以 前 不 曾 看 过 numpy 的 源码 ， 这 就 是 一 个 有 用 的 练习 。 
































构建 numpy 时 所 用 的 库 对 有 些 并 行 化 的 机 会 是 重要 的 。 取决 于 构建 numpy 时 所 用 
的 基础 库 (例如 ，Intel 的 Math Kernel Library 或 者 OpenBLAS 是 否 包 含 在 内 了 )， 
你 会 看 到 不 同 的 加 速 行为 。 


你 可 以 使 用 numpy. show_config () 来 检查 numpy 的 配置 。 如 果 你 对 可 能 性 好 
奇 , 在 StackOverflow 上 有 一 些 计时 的 示例 。 只 有 一 些 numpy 调用 会 得 益 于 外 部 库 
的 并 行 化 。 


9.4 寻找 素数 


接 下 来 ， 我 们 会 查看 在 一 个 大 数值 范围 内 测试 素数 。 这 是 一 个 与 估算 pi 不 同 的 问 
题 ， 因 为 工作 负载 会 变化 , 这 取决 于 你 在 数值 范围 中 的 位 置 ， 并 且 每 一 个 数字 检查 
都 具有 不 可 预测 的 复杂 度 。 我 们 可 以 创建 一 个 品行 的 例 程 来 检测 素数 ,接着 给 每 个 
进程 传递 可 能 的 因子 集 来 做 检查 。 要 并 行 化 这 个 问题 是 令 人 为 难 的 , 这 意味 着 没有 
需要 被 共享 的 状态 才 行 。 


Multiprocessing 模块 使 控制 工作 负载 变 得 容易 ， 所 以 我 们 应 该 会 调查 该 如 何 
调制 队列 来 使 用 (和 误 用 !) 计算 资源 ， 并 且 探 索 出 一 个 简单 的 方法 来 稍稍 更 有 效 
地 来 使 用 我 们 的 资源 。 这 意味 着 我 们 会 看 看 负载 平衡 来 设法 有 效 地 把 可 变 复杂 度 的 
任务 分 配给 我 们 的 固定 资源 集 。 


如 果 我 们 有 一 个 偶数 的 话 , 我 们 会 使 用 一 个 稍 加 改进 的 来 自 本 书 前 面 章节 的 《请 看 
第 9 页 上 的 “理想 计算 模型 Python 虚拟 机 ”) 算法 ， 请 看 例 9-4。 


例 9-4 使 用 Python 来 寻找 素数 
def check Prime (n) : 
if n $ 2 == 0: 
return False 
Fem S73 
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to 1 nath -Sart (n+ 4 
for i in xrange (from i, int(to i), 2): 


9 


if n $ i == 
return False 
return True 


当 用 这 种 方式 检测 素数 时 ， 有 多 少 工作 负载 的 变化 是 我 们 看 得 到 的 ? 图 9-10 显示 
了 当 可 能 的 素数 n 从 10000 增长 到 1000000 时 所 增加 的 检测 素数 的 时 间 开 销 。 


大 多 数 数字 是 非 素数 的 ， 它 们 用 一 个 点 来 描绘 。 有 些 可 以 花 很 少 的 代价 检测 到 ， 
然而 另 一 些 则 需要 检查 很 多 因子 。 素 数 由 一 个 x 来 描绘 ， 并 且 形 成 了 一 个 厚 厚 的 
深 色 带 ， 它 们 是 检测 开销 最 大 的 。 检 测 一 个 数字 的 时 间 开 销 随 着 n 增长 而 增长 ， 
因为 要 检查 的 可 能 的 因子 的 区 间 是 以 n 的 平方 根来 增长 的 。 素数 序列 是 不 可 预测 
的 ， 所 以 我 们 无 法 决定 一 个 数值 区 间 的 期 望 开销 (我 们 可 以 估算 它 ， 但 是 不 能 确 
保 它 的 负责 度 ) 。 


对 这 张 图 表 ， 我 们 对 每 个 测试 了 20 次 ， 并 且 采 用 了 最 快 的 结果 来 消除 结果 中 的 
抖动 。 








检测 素数 的 时 间 开 销 


(1 :secrssssasssesssasiscat J ee 
O00012 [rss ne ee a 
fo 1 Th OO Ne ee a 


S0008 [vi dd & 


> sm TH 4 
0.00006 | tt 2 
Rn A 小 
oT 


om 

$b Cy 4 
wiv hii ee 2 ge. YA bg 
Re 





每 次 测试 所 花 的 秒 数 


0.00004 | 3 






0.00002 | 





0.00000 TE SS 一 一 一 一 一 一 一 一 一 一 一 一 ES 
0 200000 400000 600000 800000 1000000 


测试 的 整数 











9-10” 随 着 nn 增长， 检测 素数 所 需 的 时 间 
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当 我 们 给 进程 池 分 
以 均匀 地 划分 所 有 工作 并 力求 一 次 传递 完 ， 或 者 我 














CPU 空闲 时 就 把 它们 传递 出 去 。 这 是 由 chunksize 参数 来 控 





0 工作 时 , 我 们 可 以 指定 要 给 每 个 工作 者 传递 的 工作 量 。 我 们 可 





们 也 可 以 创建 很 多 工作 块 ， 当 
判 的 。 更 大 的 工作 





块 意味 着 更 少 的 通信 开销 ， 而 更 小 的 工作 块 意味 着 对 资源 分 配 进 行 更 多 的 控制 。 


对 于 我 们 的 素数 查寻 胡来 说 ,一 个 单独 的 工作 划 片 是 一 个 由 check_prime 来 检测 
的 数字 n。chunksize 是 10 就 意味 着 每 一 个 进程 处 理 一 列 10 个 整数 ， 同 时 处 理 


一 列 。 
在 图 9-11 中 我 们 可 以 看 到 从 1 (每 个 任务 是 一 个 单 


独 的 工作 划 片 ) 到 64 (每 个 任 








务 是 一 列 64 个 数字 ) 之 间 变 化 的 chunks 











带 来 了 最 大 的 灵活 性 ， 它 也 强加 了 最 大 的 通信 开销 。 











以 利用 , 但 是 当 每 一 个 任务 和 处 理 结果 都 经 过 一 个 自 











ize 的 效果 。 尽 管 有 很 多 小 任务 给 我 们 





所 有 的 4 个 CPU 会 有 效 地 得 
独 的 通信 管道 传输 时 ,这 个 单 


























独 的 信道 就 变 成 了 一 个 瓶颈 。 如 果 我 们 把 chunksize 翻 倍 变 成 2， 我 们 的 任务 就 





人 全 





以 两 倍 快 的 速度 得 到 了 解决 , 因为 我 们 在 通信 管道 上 有 更 少 的 竞争 。 我 们 可 

















天 


有 上 会 





真 地 假设 通过 增加 chunksize， 我 们 会 继续 缩短 执行 时 间 。 无 论 如 何 ， 就 如 你 能 
在 图 表 中 所 见 的 那样 ， 我 们 将 再 次 遇 到 一 个 回报 减弱 的 点 。 








在 四 处 理 器 下 ， 用 变化 的 块 尺寸 来 检测 区 间 [100000000 -1 


2.52.46s 


完成 时 间 ( 秒 ) 


30 40 
chunksize 参 数 





00099999] 中 的 素数 的 时 间 开 销 


一 一 实验 
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9-11 选择 一 个 合理 的 chunksize 值 
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我 们 可 以 继续 增 大 chunksize 直到 开始 发 现 表 现 变 坏 。 在 图 9-12 中 我 们 扩展 了 
块 尺 才 的 区 间 ， 使 得 它们 不 但 仅仅 有 小 块 ， 而 且 还 有 巨 块 。 在 区 间 的 大 端 ， 最 坏 的 
结果 显示 为 1.31 秒 ， 在 那里 我 们 已 让 chunksize 变 成 了 50000 一 一 这 意味 着 我 
们 的 100000 项 被 划分 成 了 两 个 工作 块 , 使 得 两 个 CPU 在 整个 扫描 过 程 都 空间 了 下 
来 。 而 使 用 具有 10000 项 的 chunksize， 我 们 创建 了 10 个 工作 块 ， 这 意味 着 4 
个 工作 块 将 并 行 地 运行 两 遍 ， 接 下 来 再 运行 剩余 的 2 个 工作 块 。 这 就 让 两 个 CPU 
在 第 三 轮 工作 中 空闲 下 来 ， 是 对 资源 的 低 效 利用 。 

在 这 种 情况 下 一 个 优化 的 解决 方案 是 把 所 有 数量 的 任务 根据 CPU 的 数量 来 划分 。 
这 是 multiprocessing 的 默认 行为 ， 在 图 中 显示 为 “默认 ”的 黑 点 。 
作为 一 个 通用 规则 ， 默 认 的 行为 是 明智 的 ， 只 有 当 你 期 望 看 见 一 个 真正 的 收益 ， 并 
且 对 比 默 认 行为 确切 地 去 证 实 你 的 假设 时 ， 才 去 调整 它 。 

与 蒙特 卡 罗 的 pi 问题 不 同 ， 我 们 的 素数 检测 计算 有 着 可 变 的 复杂 度 一 一 有 时 一 个 
任务 快速 地 结束 了 (偶数 检测 得 最 快 )， 而 有 时 一 个 数字 很 大 ， 而 且 是 素数 (这 要 
花费 长 得 多 的 时 间 去 检测 )。 






























































在 四 处 理 器 下 ， 用 变化 的 块 尺寸 来 检测 区 间 [100000000 -100099999] 
中 的 素数 的 时 间 开 销 


。 默认 


完成 时 间 〈 秘 ) 





chunksize 人 参数 


图 9-12 ”选择 一 个 合理 的 chunksize 值 (继续 ) 
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如 果 我 们 随机 化 我 们 的 工作 序列 ， 会 发 生 什么 呢 ? 对 于 这 个 问题 ， 我 们 压榨 出 了 
2% 的 性 能 收益 ， 就 如 你 在 图 9-13 中 所 见 的 那样 。 通 过 随机 化 ， 我 们 减少 了 序列 中 
的 最 后 任务 比 其 他 任务 要 花费 更 久 时 间 运 行 ， 从 而 只 让 一 个 CPU 处 于 活动 状态 的 
可 能 性 。 


就 如 我 们 更 早 的 例子 使 用 一 个 10000 的 chunksize 所 演示 的 那样 ， 错 配 工作 负 
载 和 可 利用 的 资源 会 导致 低 效 。 在 那 种 情况 下 ,我 们 创建 了 三 轮 工 作 : 开始 的 两 轮 
使 用 了 100% 的 资源 ， 而 最 后 一 轮 仅 使 用 了 50%。 


图 9-14 展示 了 当 我 们 错 配 工作 块 数量 和 处 理 器 数量 时 ， 奇 怪 的 现象 会 发 生 。 错 配 会 
导致 对 资源 利用 不 足 。 当 仅 有 一 个 工作 块 被 创建 时 ， 发 生 了 最 慢 的 整体 运行 时 间 。 两 
个 工作 块 让 两 个 CPU 没有 得 到 利用 ， 依 次 类 推 ， 只 有 当 我 们 有 4 个 工作 块 时 ， 我 们 
才 使 用 上 了 所 有 的 资源 。 但 是 如 果 我 们 增加 了 第 5 个 工作 块 , 那么 我 们 会 再 次 对 资源 
利用 不 足 一 -4 个 CPU 会 工作 于 它们 的 块 上 ， 接 着 一 个 CPU 将 运行 计算 第 5 个 块 。 


































































































在 四 处 理 器 下 ， 用 变化 的 块 尺 寸 来 检测 区 间 [100000000 - 100099999] 中 的 素数 的 时 间 开 销 


。 默认 


完成 时 间 ( 秒 ) 





10? 16; 
chunksize 人 参数 











9-13 ”随机 化 任务 队列 





当 我 们 增 大 了 工作 块 数量 时 ,我们 看 到 低 效 程度 减弱 了 一 一 29 和 32 个 工作 块 的 运 
行 时 间 差 异 大 约 是 0.01 秒 。 通 用 规则 就 是 如 果 你 的 任务 运行 时 是 可 变 的 ， 那 就 创 
建 许多 的 小 任务 来 有 效 使 用 资源 。 
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有 一 些 策略 用 来 有 效 使 用 multiprocessing 解决 棘手 的 并 行 问题 : 
。 把 你 的 工作 拆 分 成 独立 的 工作 单元 。 


。 ”如 果 你 的 工作 者 所 花 的 时 间 是 可 变 的 ， 那 就 考虑 随机 化 工作 序列 ( 另 一 个 例子 
就 是 处 理 大 小 可 变 的 文件 )。 


。 ”对 你 的 工作 队列 进行 排序 , 这 样 首先 处 理 最 慢 的 任务 可 能 是 一 个 平均 来 说 有 用 
的 策略 。 


。 ”使 用 默认 的 chunksize， 除 非 你 已 经 验证 了 调节 它 的 理由 。 


。 ”让 任务 数量 与 物理 CPU 数量 保持 一 致 (默认 的 chunksize 再 次 为 你 考虑 到 
了 ， 尽 管 它 默认 会 使 用 超 线 程 ， 这 样 可 能 不 会 提供 额外 的 性 能 收益 )。 




















在 四 处 理 器 下 ， 用 变化 的 块 尺寸 来 检测 区 间 [100000000 -100099999] 中 的 素数 的 时 间 开 销 
3.6 


一 一 实验 


ID 


完成 时 间 〈 秒 ) 


a 





Chunksize 数 量 











图 9-14 选择 不 合适 的 块 数量 的 危险 性 


注意 默认 情况 下 ，multiprocessing 会 把 超 线程 视 作 附加 的 CPU。 这 意味 着 在 
Ian 的 笔记 本 电脑 上 , 它 会 分 配 8 个 进程 , 而 只 有 4 个 会 真正 跑 出 100% 的 速度 。 多 
出 的 4 个 进程 可 能 占用 了 珍贵 的 RAM， 却 几乎 没有 提供 任何 额外 的 速度 提升 。 


使 用 一 个 池 ， 我 们 可 以 把 一 块 预定 义 的 工作 事先 在 可 用 的 CPU 上 拆 分 。 然 而 如 果 我 
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们 有 动态 的 工作 负载 ， 尤 其 是 如 果 我 们 有 随时 间 而 来 的 工作 负载 ， 这 样 做 帮助 就 减 
少 了 。 对 于 这 种 类 型 的 工作 负载 , 我 们 可 能 想 要 使 用 一 个 Queue, 在 下 一 节 会 介绍 。 
让 
如 果 你 正 工作 于 一 个 长 期 运行 的 科学 问题 ， 每 个 任务 花费 许多 秒 (或 
更 长 ) 来 运行 ， 那 么 你 可 能 会 想 要 检视 下 Cael Varoqaux 的 joblib。 
这 个 工具 支持 轻 量 级 的 流水 线 ， 它 在 multiprocessing 之 上 设置 ， 
并 且 提 供 了 一 个 更 简单 的 并 行 接口 、 结 果 缓 存 和 调试 功能 








工作 队列 

multiprocessing.Queue 对 象 给 我 们 非 持 久 性 的 队列 , 能 够 在 进程 间 传送 任何 
可 序列 化 (pickleable) 的 Python 对 象 。 当 每 个 对 和 象 必须 要 被 序列 化 (pickle) 来 传 
送 ， 接 着 在 消费 者 那里 复原 (伴随 着 一 些 加 锁 操 作 ) 时 ， 它 们 就 带 来 了 一 个 开销 。 
在 下 面 的 例子 中 , 我们 会 看 到 这 个 代价 是 不 可 忽略 的 。 无 论 如 何 ， 如 果 你 的 工作 者 
正在 处 理 更 大 的 任务 ， 那 么 通信 开销 可 能 是 可 接受 的 。 


使 用 队列 来 工作 相当 简单 。 在 这 个 例子 中 , 我 们 会 检测 素数 ,通过 消费 一 列 候选 数 
字 并 且 把 确认 的 素数 发 回 一 个 definite_primes_queue。 我 们 会 使 用 一 个 、 两 
个 、 四 个 和 八 个 进程 来 运行 , 并 且 证 实 后 者 都 会 比 只 运行 一 个 单独 的 进程 来 检测 相 
同 的 区 间 花 费 更 长 的 时 间 。 


Queue 带 给 我 们 使 用 原生 的 Python 对 象 来 执行 许多 进程 间 通 信 的 能 力 。 如 果 你 正 
在 用 许多 状态 在 对 象 间 相 互 传递 ， 这 可 能 是 有 用 的 。 然 而 ， 因 为 Queue 缺乏 持久 
性 ， 你 可 能 不 想 用 它们 来 做 在 面临 失效 时 需要 和 鲁 棒 性 的 工作 〈 例 如 ， 如 果 你 断 电 了 
或 者 硬盘 崩 坏 了 )。 


例 9-5 展示 了 check_prime 函数 。 我 们 已 经 熟悉 了 基本 的 素数 测试 方法 。 我 们 运 
行 于 一 个 无 限 循环 中 , 阻塞 于 (等 待 直到 有 可 用 的 任务 为 止 ) possible primes_ 
queue.get () 上 来 从 队列 中 消费 一 项 任务 。 只 有 一 个 进程 能 够 在 同一 ee 
项 任务 , 因为 Queue 对 象 考虑 到 了 同步 存 取 。 如 果 队 列 中 没有 任务 , 那么 .get ( 
就 阻塞 直到 任务 可 用 。 当 素数 被 找到 时 ,它们 被 放 回 definite primes_queu 
中 来 为 父 进程 所 消费 。 

例 9-5 使 用 两 个 队列 来 IPC (进程 间 通信 ) 


FLAG ALL DONE = b"WORK FINISHED" 
FLAG WORKER FINISHED PROCESSING = b"WORKER FINISHED PROCESSING" 
















































































def check prime (possible primes queue, definite primes queue): 








216 第 9 章 有 到 
异步 社区 会 员 woshigedushuren(13120020972) 专 享 尊重 版 权 


while True : 
n = possible primes queue.get() 
if n == FLAG ALL DONE: 
# flag that our results have all been pushed to the resul 


ts gueue 


definite primes queue.put (FLAG WORKER FINISHED PROCESSING) 


break 
else: 
if n $ 2 == 0: 
continue 
for i in xrange(3, int (math.sgqrt(n)) + 1, 2): 
if n $ i == 0: 
break 
else: 


definite primes queue.put (n) 





我 们 定义 了 两 个 标记 : 一 个 由 父 进程 来 表明 没有 可 用 的 工作 了 ,而 第 二 个 日 











日 工作 者 


来 确认 它 已 经 看 到 了 毒药 ， 并 把 自己 关闭 。 第 一 个 毒药 也 叫 哨兵 ， 因 为 它 保证 终结 











处 理 循环 。 


当 处 理工 作 队 列 和 远程 工作 者 时 , 使 用 像 那样 的 标记 有 助 于 来 记录 毒药 已 送出 ,并 


























标记 的 接收 依据 在 调试 期 间 能 够 被 记 人 日志 或 者 打印 出 来 。 








且 检 查 响 应 已 在 合理 的 时 间 窗 口 由 子 进 程 送出 ,从 而 表明 它们 正在 关闭 中 。 
这 里 不 处 理 那个 进程 , 但 是 增加 一 些 时 间 记 录 对 代码 是 一 种 相对 简单 的 添加 。 这 些 


我 们 在 


Queue 对 象 创建 于 例 9-6 中 的 Manager。 我 们 会 使 用 熟悉 的 过 程 来 构建 一 个 
Process 对 象 列表 , 每 一 个 包含 了 一 个 派生 (fork) 进程 。 两 个 队列 被 当 作 参数 送 











务 列表 移交 给 possible_primes_queu ， 并 且 用 毒药 来 终结 每 个 进程 。 














出 ，multiprocessing 处 理 它们 的 同步 。 已 经 启动 新 进程 后 ， 我 们 就 把 一 个 任 








任务 会 


以 先进 先 出 的 顺序 被 消费 , 毒药 留 在 最 后 面 。 在 check_prime 中 , 我 们 使 用 一 个 





blocking.get() ， 因 为 新 进程 不 得 不 等 待 工 作 在 队列 中 出 现 。 既 然 我 人 
标记 ， 我 们 就 可 能 会 增加 一 些 工 作 ， 处 理 结果 ， 接 着 通过 增加 更 多 的 工作 来 遍历 ， 








并 且 通 过 在 之 后 增加 毒药 来 表明 工作 者 生命 的 终结 。 
例 9-6 为 IPC (进程 间 通信 ) 构建 两 个 队列 


人 name == " main 
primes = [] 


























manager = multiprocessing.Manager () 
possible primes queue = manager.Oueue () 
definite primes queue = manager.Queue() 





NBR_PROCESSES = 2 
Pool = Pool(processes=NBR PROCESSES) 
processes = [] 


] 使 用 了 
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for _ in range (NBR_PROCESSES) : 
p = multiprocessing.Process (target=check prime, 
args= (possible primes queue, 
definite primes queue)) 
processes .append (p) 
p.start() 


tl = time.time() 
number range = xrange (100000000, 101000000) 


# aaa jobs to the inbound work queue 
for possible prime in number range: 
possible primes queue.put (possible prime) 


# add poison pills to stop the remote workers 
for n in xrange (NBR PROCESSES): 
possible primes queue.put (FLAG ALL DONE) 


为 了 消费 结果 ， 我 们 在 例 9-7 中 启动 了 另 一 个 无 限 循环 ,在 definite primes_ 
queue 上 使 用 一 个 blocking.get () 。 如 果 finishedq-processindg 标记 找到 
了 ,那么 我 们 就 对 表明 自己 终结 退出 的 进程 计数 。 如 果 没 有 找到 ,那么 我 们 就 有 一 
个 新 素数 并 把 它 添加 到 素数 列表 中 去 。 当 我 们 所 有 的 进程 已 经 表明 自己 终结 退出 
时 ， 我 们 就 结束 无 限 循环 。 


例 9-7 为 IPC (进程 间 通 信 ) 使 用 两 个 队列 
processors indicating they have finished = 0 
while True: 
new result = definite primes queue.get() #block while waiting for results 
if new result == FLAG WORKER FINISHED PROCESSING: 
processors indicating they have finished += 1 
if processors indicating they have finished == NBR PROCESSES: 
break 
































else: 
primes.append (new result) 
assert processors indicating they have finished == NBR PROCESSES 


print "Took:", time.time() - tl1 
print len(primes), primes[:10], primes{[-10:] 


归 因 于 序列 化 (pickle) 和 同步 ,使 用 Queue 具有 相当 的 开销 。 就 如 你 在 图 9-15 
中 所 能 看 到 的 那样 ， 使 用 一 个 更 少 的 Queue 的 单 进程 解决 方案 明显 要 比 使 用 两 个 
或 多 个 进程 的 要 快 。 这 种 情况 的 原因 就 是 我 们 的 工作 负载 很 轻 一 一 对 于 这 个 任务 ， 
通信 开销 占据 了 整体 时 间 的 大 部 分 。 使 用 Queues ， 两 个 进程 完成 这 个 例子 要 比 一 
个 进程 稍 快 一 点 ， 而 四 个 或 八 个 进程 则 比 一 个 进程 要 更 慢 。 


如 果 你 的 任务 有 和 较 长 的 完成 时 间 (至 少 相当 多 的 秒 数 ) 和 少量 的 通信 , 那么 Queue 
的 方式 可 能 是 正确 的 答案 。 你 将 不 得 不 验证 通信 开销 是 否 让 这 种 方式 足够 有 效 。 

















-| 
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你 可 能 想 知道 如 果 我 们 移 除了 多 余 的 一 
check Prime 中 被 很 快 地 剔除 了 ) 会 发 生 什么 。 








把 输入 








半 工 作 队 列 (所 有 的 偶数 一 一 这 些 介 








数 在 





队列 减 半 在 每 一 种 情况 下 


都 让 我 们 的 执行 时 间 减 半 了 , 但 是 它 还 是 没有 战胜 单 进程 非 队列 的 例子 ! 这 有 助 于 








演示 通信 开销 在 这 个 问题 中 占 主导 因素 。 




















轻 量 级 任务 的 队列 开销 
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图 9-15 ”使 用 Queue 对 象 的 开销 


异步 地 给 Queue 添加 工作 

















通过 给 主 进程 增加 一 个 Thread， 我 们 能 够 异步 地 给 possible_primes_queu 














提供 工作 。 在 例 9-8 中 ， 我 们 定义 了 一 个 feed_new_jobs 函数 : 它 就 如 我 们 在 
_ main 之 前 的 工作 设置 例 程 那样 ， 执 行 相同 的 工作 ， 但 是 它 却 是 在 一 个 独立 的 
线程 中 做 的 。 


例 9-8 异步 工作 提供 函数 


def feed new jobs (number range, possible primes queue, nbr poison pills): 


for possible prime in number range: 
possible primes queue.put (possible prime) 
# add poison pills to stop the remote workers 


for n in xrange (nbr poison pills): 


possible primes queue.put (FLAG ALL DONI 





E) 
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m3 
MS 

和 
时 
可 
总 


现在 ,在 例 9-9 中 , 我 们 的 _main “将 使 用 Possible Primes_queue 来 设置 
Thread， 接 着 在 任何 工作 被 发 起 前 ， 继 续 移 动 到 结果 收集 阶段 。 蜡 步 工作 提供 者 
能 够 从 外 部 源 中 消费 工作 (例如 ， 从 一 个 数据 库 或 者 IO 密集 型 的 通信 中 )， 而 
_main 线程 来 操作 每 一 个 处 理 后 的 结果 。 这 意味 着 输入 序列 和 输出 序列 不 需要 
提前 被 创建 ， 它 们 都 能 够 被 即时 处 理 。 


例 9-9 使 用 一 个 线程 来 设置 一 个 异步 工作 提供 者 




















二 name == " main 
primes = [] 
manager = multiprocessing.Manager () 
possible primes queue = manager.Oueue () 


import threading 
thrd = threading.Thread (target=feed new jobs, 
args= (number_ range, 
possible primes queue, 
NBR_PROCESSES ) ) 
thrd.start () 


# deal with the results 

如 果 你 想 要 健壮 的 异步 系统 , 你 几乎 一 定 要 看 看 成 熟 的 外 部 库 . gevent、tornado 
和 Twisted 是 强力 的 候选 者 ，Python 3.4 的 tulip 是 一 个 新 的 竞争 者 。 我 们 在 这 
里 看 的 例子 将 让 你 起 步 , 但 是 实际 上 相 比 对 生产 系统 的 作用 , 它们 对 很 简单 的 系统 
和 培训 来 说 更 有 用 。 

备 忘 

另 一 个 你 可 能 想 要 调查 的 单机 队列 是 PyRes。 这 个 模块 使 用 了 Redis 

(在 9.5.5 节 介 绍 过 ) 来 存储 队列 的 状态 。Redis 是 一 个 非 Python 的 数 

据 存 储 系统 , 这 意味 着 由 Redis 所 持 有 的 队列 数据 在 Python 之 外 是 可 

读 的 ， 并 且 能 够 被 非 Python 的 系统 所 共享 。 























要 非常 注意 ,异步 系统 需要 一 个 特殊 级 别 的 耐心 
的 头发 中 结束 。 我 们 要 建议 


。 应 用 “保持 简单 、 思 蠢 ” 的 原则 。 


。 如果 有 可 能 尽量 避免 异步 的 自 包含 系统 〈 就 像 我 们 的 例子 ) ， 因 为 它们 的 复杂 
度 会 增长 ， 并 且 很 快 变 得 难以 维护 。 


。 ”使 用 成 熟 的 库 ， 就 像 gevent (在 前 一 章 中 所 描述 的 ) 那样 给 予 你 尝试 和 检验 
的 方法 来 处 理 某 些 问题 集 。 





当 你 在 调试 时 , 你 会 在 撕 扯 你 
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而 且 ， 我 们 强烈 建议 使 用 一 个 外 部 的 队列 系统 (例如 ，Gearman、0MQ、Celery、 
PyRes 或 者 HotQueue) 来 给 予 你 对 队列 状态 的 外 部 可 视 性 。 这 需要 更 多 的 思考 ， 
晶 是 归 因 于 增加 的 调试 效率 和 对 生产 系统 的 更 好 的 系统 可 视 性 ， 可 能 会 节省 你 的 
时 间 。 
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9.5 ”使 用 进程 间 通信 来 验证 素数 


素数 是 除了 自己 和 1 以 外 没有 其 他 因子 的 数字 。 这 正 是 绝 大 多 数 公 因数 是 2 的 理由 
(每 一 个 偶数 都 不 能 是 素数 )。 然 后 ， 小 素数 (比如 3、5、7) 成 为 了 更 大 的 非 素数 
的 公 因 子 (比如 ， 对 应 于 9、15、21) 。 


比如 说 给 我 们 一 个 大 数字 , 要 我 们 验证 它 是 否 是 素数 。 我 们 可 能 会 有 一 个 大 范围 的 
因子 要 去 搜索 ,图 9-16 显示 了 一 直到 10000000 的 非 素 数 的 每 一 个 因子 出 现 的 频率 。 
小 因子 要 比 大 因子 出 现 的 几率 大 得 多 ， 但 是 没有 可 预测 的 模式 。 









































一 直到 10000000 的 非 素数 的 因子 数量 
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图 9-16 非 素 数 的 因子 频率 








让 我 们 定义 一 个 新 的 问题 一 一 假设 我 们 有 一 个 小 数字 集 , 我 们 的 任务 是 有 效 地 利用 
CPU 资源 来 计算 出 每 一 个 数字 是 否 是 素数 ， 一 时 刻 计算 一 个 数字 。 可 能 我 们 会 只 
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有 一 个 大 数字 要 检测 。 使 用 一 个 CPU 来 做 检测 不 再 有 意义 ， 我 们 想 要 在 许多 CPU 
之 间 协 调 工 作 。 


在 本 节 中 我 们 会 看 看 一 些 更 大 的 数字 ， 一 个 数字 有 15 位 数 digits)，4 个 数字 有 
18 位 数 (digits): 


。 小 的 非 素 数 : 112272535095295。 

















。 大 的 非 素数 1: 00109100129100369。 








。 大 的 非 素数 2: 100109100129101027。 


e。 ”素数 1: 100109100129100151。 





。 素数 2: 100109100129162907。 


通过 使 用 更 小 的 非 素数 和 一 些 更 大 的 非 素数 ， 我 们 得 到 验证 ， 我 们 所 选择 的 过 程 
不 但 在 检测 素数 方面 更 快 ， 而 且 在 检测 非 素数 方面 不 会 变 得 更 慢 。 我 们 会 假设 并 
不 知道 所 给 的 数字 大 小 或 类 型 ， 所 以 我 们 想 要 对 所 有 的 使 用 情况 来 说 可 能 是 最 快 
的 结果 。 


协同 带 来 了 开销 一 一 同步 数据 和 检查 共享 数据 的 开销 可 能 是 相当 大 的 。 我 们 在 
这 儿 会 过 一 壳 几 种 能 够 以 不 同 的 方式 来 做 任务 同步 的 方法 。 注 意 我 们 在 这 里 没 
有 涉及 某 些 特殊 化 的 消息 传递 接口 (MPI) ， 我 们 打算 看 看 内 置 的 模块 和 Redis 
(很 普遍 )。 


如 果 你 想 要 使 用 MPI, 我 们 假设 你 已 经 知道 正在 做 什么 。MPI4PY 项 目 将 会 是 一 个 
起 步 的 好 地 方 。 当 很 多 进程 要 相互 协同 时 , 无 论 你 是 否 有 一 台 或 多 人 台 机 器 ， 如果 你 
想 要 控制 延迟 ， 它 就 是 一 个 理想 的 技术 。 


在 下 列 运行 中 ， 每 个 测试 执行 20 遍 ， 采 用 了 最 小 的 时 间 来 展示 对 那 种 方法 来 说 
最 快 的 速度 。 在 这 些 例子 中 ， 我 们 要 使 用 各 种 不 同 的 技术 来 共享 一 个 标记 (通常 
是 一 个 字 节 )。 我 们 可 外 E 使 用 一 个 基本 对 象 比如 一 个 Lock, 但 是 接着 我 们 只 可 
以 共享 一 个 比特 的 状态 。 我 们 会 选择 性 地 来 向 你 展示 如 何 共 享 一 个 原生 类 型 ， 从 
而 有 可 能 共享 更 多 富有 表达 力 的 状态 〈 即 使 我 们 为 这 个 例子 不 需要 一 个 更 有 表达 
力 的 状态 )。 


我 们 必须 强调 共享 状态 倾向 于 让 事情 变 得 复杂 化 一 一 你 会 0 
发 的 状态 中 结束 。 要 小 心 并 且 要 尝试 让 事情 尽 可 能 保持 简单 。 可 能 有 一 种 情况 , 开 
发 者 花 在 其 他 挑战 上 的 时 间 超 过 了 更 低 效 的 资源 利用 。 
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首先 我 们 要 讨论 结果 ， 接 着 我 们 要 过 一 遍 代码 。 


图 9-17 展示 了 第 一 种 方法 来 尝试 使 用 进程 间 通 信 来 更 快 地 检测 素数 。 基 准 就 是 
没有 使 用 任何 进程 间 通 信 的 串 行 版 本 ， 每 一 个 想 要 加 速 我 们 代码 的 尝试 至 少 需 
要 比 它 快 。 


Less Naive Pool 版 本 具有 一 个 可 预测 (并且 良 好 ) 的 速度 。 它 是 足够 好 了 ， 从 而 相 
当 难 以 被 击败 ,不 要 忽略 你 搜索 快速 解决 方案 中 的 那些 显而易见 的 方案 一 一 有 时 一 
个 笨拙 又 足够 好 的 解决 方案 就 是 你 所 需要 的 全 部 。 


Less Naive Pool 解决 方案 中 的 方式 就 是 采用 我 们 在 检测 中 的 数字 ， 在 可 用 的 CPU 
之 间 均 匀 地 划分 可 能 的 因子 区 间 ,接着 把 工作 推送 到 每 一 个 CPU 上 。 如 果 任 何 CPU 
发 现 了 一 个 因子 ， 它 就 提早 结束 ， 但 是 它 不 会 交流 这 个 因子 ， 其 他 CPU 会 继续 完 
成 它们 那 部 分 区 间 工 作 。 这 意味 着 对 于 一 个 18 位 数 的 数字 来 说 (我 们 4 个 更 大 的 
数字 的 例子 ) ， 无 论 它 是 素数 还 是 非 素数 ， 搜 索 时 间 都 是 相同 的 。 


Redis 和 Manager 的 解决 方案 在 遇 到 检测 更 多 的 因子 数 来 求 素数 时 会 更 慢 ， 归 因 于 
通信 开销 。 它 们 使 用 一 个 共享 标记 来 表明 已 经 发 现 一 个 因子 ， 应 该 放弃 搜索 。 


Redis 让 你 不 仅 与 其 他 Python 进程 共享 状态 ,而 且 还 与 其 他 工具 和 其 他 机 器 来 共享 
甚至 通过 一 个 web 浏览 器 接口 来 暴露 状态 (可 能 对 远程 监控 有 用 )。Manager 
multiprocessing 的 一 部 分 ， 它 提供 了 一 个 高 级 的 Python 对象 的 同步 集合 人 
括 原 生 对 象 、list 和 dict)。 


对 于 更 大 的 非 素 数 的 情况 , 尽管 有 检查 共享 状态 的 开销 , 但 是 在 提早 通知 已 经 发 现 
一 个 因子 所 节省 的 搜索 时 间 面 前 ， 显 得 相形 见 纠 。 


然而 ， 对 于 素数 的 情况 ， 没 有 办 法 来 提早 结束 ， 因 为 不 会 发 现 因子 ， 所 以 检查 共享 
标记 的 开销 将 占 主 导 地 位 。 


图 9-18 显示 了 我 们 能 够 凭借 一 点 点 努力 来 得 到 一 个 明显 更 快 的 结果 。Less Naive Pool 
的 结果 仍旧 是 我 们 的 基准 , 但 是 RawValue 和 MMap (内 存 映射 ) 的 结果 比 之 前 Redis 
和 Manager 的 结果 要 快 得 多 。 真 正 的 魔法 来 自 于 采用 了 最 快 的 解决 方案 ， 并 且 执 行 
了 一 些 更 不 明显 的 代码 运算 来 做 出 了 一 个 接近 最 优 的 MMap 解决 方案 一 一 对 于 非 素 
数 ， 这 个 最 终 版 本 比 Less Naive Pool 解决 方案 要 快 ， 对 于 素数 几乎 一 样 快 。 


在 接 下 来 的 小 节 中 ， 我 们 将 过 一 遍 在 Python 中 使 用 IPC (进程 间 通 信 ) 的 各 种 各 
样 的 方式 来 解决 我 们 的 合作 搜索 问题 。 我 们 希望 你 会 看 到 IPC (进程 间 通 信 ) 是 相 
当 的 简单 ， 但 是 一 般 会 伴随 着 一 定 的 开销 。 
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更 慢 的 IPC 〈 进 程 间 通 信 ) 方式 






e。 一 e 串 行 〈 非 IPC) 

™-vLess Naive Pool 
10 a.-m Redis 标 记 
.4 Manager 标 记 











e 一 e。 RawValue 标 记 
| MMap 标 记 
4.…4 MMap Redux 标 记 


ID 


时 间 以 秒 来 计 〈 越 小 越 好 ) 


/注油 


大 大 
的 的 
非 非 
素 于 
数 娄 


才 村 ib wan WA Va 站 
FE 
4 
匡 
2 
0 
小 大 大 素 素 
的 的 的 罗 数 
非 非 非 
素 素 素 
数 数 数 
图 9-17 更 慢 的 方式 来 使 用 IPC (进程 间 通 信 ) 验证 素数 
更 快 的 IPC 《进程 间 通 信 ) 方式 
+-vLessNaivePool 5 一 号 
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9.5.1 捉 行 解决 方案 

我 们 将 以 与 之 前 所 使 用 的 相同 的 串 行 因子 检查 的 代码 作为 开始 ,再 次 展示 于 例 9-10 
就 如 之 前 所 要 注意 的 那样 ， 对 于 任何 有 大 因子 的 非 素数 ,我们 可 以 更 有 效 地 并 
行 搜索 因子 空间 。 一 个 串 行 清扫 器 还 是 会 给 我 们 一 个 有 意义 的 基线 ,从 而 基于 它 来 
| 


例 9-10 ” 串 行 验证 
def check Prime (n): 
if n %$ 2 == 0: 
return False 
freom i = 3 
to i.=- mathsgqrt (+1 
for i in xrange (from i, int(to i), 2): 









































if n %$ i == 0: 
return False 
return Tue 


9.5.2 Naive Pool 解决 方案 

Naive Pool 解决 方案 使 用 一 个 multiprocessing.Pool 来 工作 ， 类 似 于 我 们 在 
9.4 节 所 见 到 的 “寻找 素数 ”和 在 9.3 节 中 使 用 4 个 派生 (fork) 进程 的 “使 用 多 进 
程 和 多 线程 来 估算 Pi”。 我 们 有 一 个 数字 来 检测 它 是 否 为 素数 ， 并 且 我 们 把 可 能 的 
因子 区 间 划 分 为 四 个 子 区 间 元 组 ， 再 把 它们 发 送 到 Pool 中 。 


在 例 9-11 中 ,我 们 使 用 了 一 个 新 方法 ，create_range.create (我 们 不 会 展示 
出 来 一 一 它 比 较 枯燥 ) 来 把 工作 空间 分 制 成 相同 大 小 的 区 域 ,在 range_to_check 
中 的 每 一 项 是 要 在 其 中 搜索 的 一 对 上 下 边界 。 对 于 第 一 个 18 位 数 的 非 素数 
(00109100129100369) ,使 用 4 个 进程 ,我 们 会 有 如 下 因子 区 间 ranges_to_check 
三 :人 (3 9100057).; (9L00057, T582004L1)y, (L58200111y 237300165)'> 
(237300165，316400222) ] (316400222 是 100109100129100369 的 平方 根 加 
一 )。 在 _main _ 中 , 我 们 首先 创建 了 一 个 Pool, 接着 check_prime 通过 一 个 
map 为 每 一 个 可 能 的 素数 来 分 割 得 到 ranges_to_check。 如 果 结 果 是 False， 

那么 我 们 已 经 发 现 了 一 个 因子 ， 就 不 会 是 一 个 素数 。 


例 9-11 Naive Pool 解决 方案 


def check prime(n, pool, nbr processes) : 
from =.3 
to i = int(math.sqrt(n)) + 1 
ranges to check = create range.create (from i, to i, nbr processes) 
ranges to check = zipl(lenl(ranges to check) * [n], ranges to check) 
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assert lenl(ranges to check) == nbr processes 
results = pool.map (check prime in range, ranges to check) 
if False in results: 
return False 
return True 


1£ name == " main 
NBR PROCESSES = 4 
pool = Pool (processes=NBR PROCESSES) 





我 们 在 例 9-12 中 修改 了 之 前 的 check_prime， 采 用 一 个 有 上 下 边界 的 区 间 来 做 
检测 。 在 传递 一 个 完整 的 可 能 的 因子 列表 去 检测 的 过 程 中 , 没有 什么 值 ， 所 以 我 们 
通过 仅仅 传递 定义 区 间 的 两 个 数字 来 节省 了 时 间 和 内 存 。 








例 9-12 check prime in range 
def check Prime in range((n, (from i, to i))): 
if n $ 2 == 0: 
return False 
assert from i % 2 != 0 
for i in xrange(from i, int(to i), 2): 
if n %$ i == 0: 
return False 
return .TEUue 


对 于 “小 的 非 素 数 ” 的 情况 ,通过 Pool 的 验证 时 间 是 0.1 秒 ， 明 显要 比 原来 的 串 行 
解决 方案 中 的 0.00002 秒 时 间 更 长 。 尽 管 有 这 一 个 更 糟 的 结果 ， 整 体 结果 却 得 到 了 
一 个 全 面 的 速度 提升 。 我 们 可 能 会 接受 认为 出 现 这 一 个 更 慢 的 结果 不 是 问题 一 一 但 
是 如 果 我 们 可 能 得 到 许多 更 小 的 非 素数 来 检测 , 那 会 怎么 样 呢 ? 我 们 有 能 力 证 明 能 
够 避免 这 种 减速 ， 我 们 会 看 看 接 下 来 的 Less Naive Pool 的 解决 方案 。 


9.5.3 Less Naive Pool 解决 方案 


之 前 的 解决 方案 在 验证 更 小 的 非 素 数 方面 比较 低 效 。 对 于 任何 更 小 的 非 素数 (小 于 
18 个 位 数 ) ， 有 可 能 比 串 行 方法 要 慢 ， 这 是 因为 发 送 分 割 的 工作 ， 以 及 不 知道 是 否 
会 找到 一 个 非常 小 的 因子 (更 可 能 的 因子 ) 所 带 来 的 开销 。 如 果 找 到 了 一 个 小 因子 ， 
那么 进程 还 是 得 等 到 其 他 更 大 的 因子 搜索 完成 。 


我 们 可 以 从 在 进程 间 发 信号 通知 已 经 找到 了 一 个 小 因子 来 开始 , 但 是 既然 它 发 生得 
如 此 频繁 ， 就 会 增加 许多 的 通信 开销 。 在 例 9-13 中 所 呈现 的 解决 方案 是 一 种 更 实 
用 的 方法 一 一 为 可 能 的 小 因子 很 快 地 执行 一 个 串 行 检测 ， 如 果 没 有 找到 任何 因子 ， 
那么 启动 一 个 并 行 搜索 ,在 发 起 一 个 相对 代价 高 郧 的 并 行 操作 之 前 结合 一 个 串 行 的 
预 检 是 一 种 普遍 的 避免 并 行 计 算 的 部 分 开销 的 做 法 。 
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例 9-13 ”对 于 小 的 非 素数 的 情况 ， 改 进 了 Naive Pool 的 解决 方案 


def check prime 
# cheaply c 
FO i =,3 
to i 作业 
if not chec 
return 


# continue 


(tne -Bodly 


False 


to check for larger 


k prime in rangel((n, 


nbr_ processes): 
heck high-probability set of possible factors 


(from i, to i))): 


factors in parallel 


fom\ tO 
to i="1it (math. sqrt(n 
ranges to c 


ranges to c 


) ) 





站 2 


heck = create range. 


create(from i, to i, 


nbr_processes) 





if False in results: 
return False 
EetUTN Tue 


heck = zip(len(rang 
assert lenl(ranges to check) 
results = pool.map (check prime_ 


Sto ‘Check) * 
nbr processes 
ranges to check) 


[n], ranges to check) 


in range, 





对 于 我 们 的 每 一 个 测试 数字 ， 这 种 解决 方案 的 速度 等 于 或 比 原来 的 串 行 搜索 要 更 











快 。 这 是 我 们 的 新 基准 。 





重要 的 是 , 这 种 Poo1 方式 给 了 我 们 面 














对 素数 检测 场景 的 一 种 最 优 的 情况 。 如 果 我 


们 有 素数 , 那么 没有 办 法 提早 退出 , 我 们 不 得 不 在 可 以 退出 前 人 工 检查 所 有 可 能 的 








因子 。 








没有 最 快 的 方式 来 检测 完 这 些 因子 : 任何 增加 复杂 必 
因子 的 情况 会 导致 最 多 的 指令 








检测 所 有 
mmap 解决 方案 来 讨论 如 何 尽 可 能 





为 素数 得 到 接近 





的 方法 具有 更 多 的 指令 ,所 以 
要 被 执行 。 看 看 后 面 讲 到 的 各 种 各 样 的 
于 当前 的 这 个 结果 。 




















9.5.4 使 用 Manager.Value 作为 一 个 标记 


multiprocessing.Manager () 








的 代价 , 但 
点 数 )， 























也 可 以 共享 列表 和 字典 。 





也 会 提供 巨大 的 灵活 性 。 你 既 可 以 共享 更 低级 的 对 象 ( 例 如， 


() 让 我 们 在 进程 之 间 共 享 更 高 级 的 Python 对 象 作 
为 被 管理 的 共享 对 象 , 更 低级 的 对 象 封装 于 代理 对 象 中 。 封装 和 安全 


生 会 付出 速度 
整数 和 浮 








在 例 9-14 中 我 们 创建 了 一 个 Manager, 接着 创建 了 一 个 1 字 节 (character) 的 manager. 





Value (b”c’”, F 
建 任何 的 ctypes 


,AG_CI 











,EAR) 标记 。 如 果 你 想 要 共享 字符 
原 语 (和 array.array 原 语 








串 或 数字 ， 你 可 能 会 创 
一 样 )。 











注意 FLAG CLEAR 和 FLAG S 








ET 被 分 

















选择 使 用 以 b 开头 的 作为 显 式 (如 














的 
采 留 








给 1 字 节 (各 自 是 b 0’ 和 b'1' )。 





我 们 








作 一 个 隐 式 的 字符 串 ， 它 可 能 默认 成 一 个 


Unicode 或 者 字符 串 对 象 ， 这 要 取决 于 你 的 环境 和 Python 版 本 ) 。 
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现在 我 们 能 够 在 我 们 所 有 的 进程 之 间 做 标记 表明 一 个 因子 已 经 找到 了 , 所 以 搜索 能 
够 被 提早 取消 。 困 难 之 处 就 是 要 平衡 读 取 标记 的 开销 相对 于 可 能 会 挽救 下 来 的 速 
度 。 因 为 标记 被 同步 了 ， 我 们 就 不 用 太 频 繁 地 检测 了 一 一 这 增加 了 更 多 的 开销 。 


例 9-14 把 一 个 Manager.Value 对 象 作为 一 个 标记 
SERIAL CHECK CUTOFF = 21 

CHECK EVERY = 1000 

FLAG CLEAR = b'0' 

FLAG SET = pb'1' 

print "CHECK EVERY", CHECK EVERY 




















六 下 name == " main 
NBR_PROCESSES = 4 
manager = multiprocessing.Manager () 
Value = manager.Value (b'c', FLAG CLEAR) # 1l-byte character 

















check prime in range 现在 会 留意 共享 标记 ， 并 且 例 程 会 检查 看 看 一 个 素数 
是 否 已 经 被 其 他 的 进程 所 识别 出 。 即 使 我 们 已 经 开始 了 并 行 搜索 , 我 们 也 必须 如 例 
9-15 中 所 示 的 那样 在 开始 做 串 行 检测 前 清除 标记 。 在 已 经 完成 串 行 检测 之 后 , 如 果 
我 们 没有 找到 因子 ， 那 么 我 们 就 知道 标记 肯定 还 是 为 否 。 

例 9-15 使 用 一 个 Manager.Value 来 清理 标记 


def check prime(n, pool, nbr processes, value): 
# cheaply check high-probability set of possible factors 
fom d=" 3 
to i 一 SERIAL CHECK CUTOFF 
value.value = FLAG CLEAR 
if not check Prime in range((n, (from i, to i), value)): 
return False 



































from i = to i 


我 们 该 以 怎样 的 频率 来 检查 共享 标记 呢 ? 次 检查 都 有 开销 ， 既 是 因为 我 们 给 
紧 致 的 内 循环 增加 了 更 多 的 指令 ， 又 因为 做 检查 需要 在 共享 变量 上 创建 一 把 锁 ， 
这 就 增加 了 更 多 的 开销 。 我 们 所 选择 的 解决 方案 就 是 每 1000 次 循环 检查 一 次 标 
记 。 每 次 我 们 检查 看 看 Value .value 是 否 已 经 被 设置 成 了 FLAG_SET， 如 果 已 
经 设置 了 ,我们 就 退出 搜索 。 如 果 进 程 在 搜索 中 找到 了 一 个 因子 ， 那 么 它 就 设置 
value.value = FLAG SET 并 退出 (请 看 例 9-16)。 






























































例 9-16 把 Manager.Value 对 象 作为 一 个 标记 来 传递 
def check prime in range((n, (from i, to i), value)): 
hh A 
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return False 
assert from i %$ 2 != 0 
check every = CHECK EVERY 
for 1 in xrange (from i, int(to i), 2): 
check ‘every == | 
if not check every: 
if value.value == FLAG SET: 
return False 
check every = CHECK EVERY 


if n % i == 0: 
value.value = FLAG SET 
return False 
return True 


在 这 个 代码 中 的 1000 次 迭代 检查 使 用 一 个 check_every 本 地 计数 器 来 执行 。 它 
证 明了 这 种 方法 尽管 可 读 性 好 , 但 是 只 得 到 了 次 优 的 速度 。 在 本 节 结 束 前 ,我 们 会 
用 一 个 可 读 性 较 差 但 是 明显 更 快 的 方式 来 取代 它 。 

你 可 能 会 对 我 们 检查 共享 标记 的 总 次 数 产生 好 奇 。 在 两 个 大 素数 的 情况 下 , 我 们 使 
用 4 个 进程 对 标记 检查 了 316405 次 (我 们 在 下 面 所 有 的 例子 中 检查 了 这 样 的 许多 
次 )。 既 然 每 次 检查 有 加 锁 的 开销 ， 这 个 代价 真 的 合乎 常理 。 

9.5.5 ”使 用 Redis 作为 一 个 标记 

Redis 是 一 个 在 内 存 中 的 键 / 值 对 存储 引擎 。 它 提供 了 自己 的 锁 ， 每 一 个 运算 是 原子 
性 的 ， 所 以 我 们 不 必 担 心 在 Python 内 部 使 用 锁 (或 者 从 任何 其 他 的 接口 语言 )。 
通过 使 用 Redis， 我 们 让 数据 存储 变 得 和 语言 无 关 一 一 任何 与 Redis 有 接口 的 语言 
或 工具 都 能 以 一 种 可 兼容 的 方式 来 共享 数据 。 你 可 以 轻易 地 在 Python、Ruby、CT++ 
和 PHP 之 间 平 等 地 共享 数据 。 你 可 以 在 本 地 机 器 或 者 网 络 上 共享 数据 。 为 了 共享 
给 其 他 机 器 ， 你 所 需要 做 的 全 部 事情 就 是 改变 Redis 默认 只 在 localhost 共享 的 
CS 

Redis 让 你 存储 : 

。 ”字符 串 列表 。 

。 字符 串 集 合 。 

。 有 序 的 字符 串 集 合 。 


。 ”字符 串 散 列 。 
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Redis 在 RAM 中 存储 一 切 ， 把 快照 存储 到 磁盘 (有 选择 地 使 用 日 志 )， 并 支持 到 一 
个 实例 集群 的 主 从 复制 。 用 Redis 的 一 种 可 能 性 就 是 使 用 它 来 在 集群 中 共享 工作 负 
载 和 其 他 机 器 的 读 写 状态 ， 而 Redis 扮演 着 一 个 快速 的 中 心 化 的 数据 仓库 角色 。 


我 们 能 够 把 一 个 标记 作为 一 个 文本 字符 串 来 读 写 (在 Redis 中 的 所 有 值 都 是 字符 
串 ) ， 就 像 之 前 我 们 已 经 使 用 过 的 Python 标记 的 方式 一 样 。 我 们 创建 了 一 个 
StrictRedis 接口 作为 一 个 全 局 对 象 ， 和 其 他 外 部 的 Redis 服务 器 来 通信 。 我 们 
可 以 在 check_prime_in_range 内 部 创建 一 个 新 连接 ， 但 是 这 会 更 慢 ， 并 且 能 
消耗 可 利用 的 数量 有 限 的 Redis 句柄 。 


我 们 使 用 类 似 字典 的 存 取 方式 来 与 Redis 服务 器 通信 。 我 们 能 使 用 ras [SOME_KEY] 
= SOME_VALUE 来 设置 一 个 值 ， 并 且 能 使 用 rds [SOME_KEY] 来 读 回 字符 串 。 


例 9-17 与 之 前 的 Manager 例子 很 类 似 一 一 我 们 使 用 Redis 来 作为 本 地 Manager 
的 代替 物 。 结 果 它 表现 出 类 似 的 存 取 开 销 。 你 应 该 注意 到 Redis 支持 其 他 (更 复杂 ) 
的 数据 结构 。 它 是 一 个 强大 的 存储 引擎, 我们 用 这 个 例子 只 是 用 它 来 共享 一 个 标记 。 
我 们 鼓励 你 自己 去 熟悉 它 的 特点 。 


例 9-17 为 我 们 的 标记 使 用 一 个 外 部 的 Redis 服务 器 
FLAG NAME = b'redis primes flag' 

FLAG CLEAR = b'0! 

FLAG SET = b'1' 











































































































rds = redis.StrictRedis() 


def check Prime in range((n, (from i, to i))): 
if n $ 2 == 0: 
return False 
assert from i % 2 != 0 
Check every = CHECK EVERY 
for i in xrange (from i, int(to i), 2): 
Check every a" 
if not check every: 
flag = rds[FLAG NAME] 
if. flag == 了 TAG SET: 
return False 
Check every = CHECK EVERY 


if n %$ i == 0: 
rds [FLAG NAME ] 一 FLAG_SET 
return False 
return. TEIMS 


def check prime(n, pool, nbr processes): 
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# cheaply check high-probability set of possible factors 


from. 1 = 3 
七 ce 衬 = SERIAL CHECK CUTOFF 
rds [FLAG NAME] = FLAG CLEAR 


if not check Prime in range((n, (from i, to i))): 
return False 


if False in results: 
return False 
rettrn TeEue 


为 了 确认 数据 存储 在 了 这 些 Python 实例 外 部 ， 我 们 可 以 在 命令 行 中 调用 redis- 
cli， 就 如 在 例 9-18 中 的 那样 ， 还 可 以 得 到 存储 在 键 redis_primes_flag 中 的 
值 。 你 会 注意 到 返回 项 是 一 个 字符 串 (不 是 一 个 整数 )。 从 Redis 返回 的 所 有 值 都 是 
字符 串 ， 所 以 如 果 你 想 要 用 Python 来 操控 它们 ， 你 必须 首先 把 它们 转换 成 一 个 合适 
的 数据 类 型 。 


例 9-18 redis-cli 例子 

$ redis-cli 

redis 127.0.0.1:6379> GET "redis primes flag" 
Ey 


一 个 强 有 力 的 赞成 使 用 Redis 来 共享 数据 的 论据 就 是 它 存活 于 Python 的 世界 之 外 
尔 的 团队 中 的 非 Python 开发 者 能 理解 它 , 还 有 许多 为 Redis 的 工具 。 在 阅读 (但 
没 必 要 运行 和 调试 ) 你 的 代码 和 跟踪 发 生 了 什么 事情 时 ， 它 们 能 够 看 到 状态 。 从 团 
队 速 度 的 角度 来 讲 ,尽管 存在 使 用 Redis 的 通信 开销 ,这 可 能 对 你 是 一 个 巨大 的 胜利 。 
尽管 Redis 对 于 你 的 项 目 有 额外 的 依赖 性 , 但 你 应 该 意识 到 它 是 一 个 非常 普遍 的 部 署 
工具 ， 并 且 易 于 调试 和 理解 。 把 它 视 作 一 个 强大 的 工具 添加 到 你 的 武器 库 中 去 。 


Redis 有 许多 配置 项 。 它 默认 使 用 一 个 TCP 接口 〈 正 是 我 们 所 使 用 的 ) ， 尽 管 基 
准 文档 提 到 套 接 字 (socket) 可 能 会 快 很 多 。 它 也 陈述 了 尽管 TCP/IP 让 你 在 不 
同类 型 的 OS 上 路 网 络 共享 数据 , 其 他 配置 选项 可 能 会 更 快 (但 是 也 受 限 于 你 的 
通信 开销 ) : 
当 服 务 器 和 客户 端 基准 程序 运行 于 相同 的 盒子 上 时 ， 既 可 以 使 用 TCP/IP 
回路 ,也 可 以 使 用 UNIX domain socket。 这 取决 于 平台 ,但 是 UNIX domain 
sockets 相 比 TCP/IP 回路 ， 能 够 达到 大 约 超过 50% 的 吞吐 量 (在 Linux 实 
例 上 )。redis 基准 的 默认 行为 是 使 用 TCP/IP 回路 。 当 管道 被 高 负载 使 用 
时 (例如 ， 长 管道 )，UNIX domain socket 相 比 TCP/IP 回路 的 性 能 收益 会 
倾向 于 减弱 。 
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9.5.6 ”使 用 RawValue 作为 一 个 标记 
multiprocessing.RawValue 是 一 个 围绕 ctypes 字 节 块 的 薄 薄 的 包装 器 。 它 
缺少 同步 原 语 , 所 以 几乎 不 会 阻碍 我 们 搜寻 最 快 的 方式 来 为 进程 间 设 置 标 记 。 它 几 
平和 接 下 来 的 mmap 例子 一 样 快 (只 是 因为 受阻 于 多 出 来 的 一 些 指令 ，, 所 以 运行 要 
慢 一 点 )。 


我 们 再 次 能 够 使 用 任何 ctypes 原 语 ， 也 有 一 个 RawArray 选项 来 共享 基本 对 象 
数组 (变现 类 似 于 array.array)。RawValue 避 开 了 任何 加 锁 一 一 它 使 用 起 来 
更 快 ， 但 是 你 不 会 得 到 原子 操作 。 


一 般 来 说 ， 如 果 你 避 开 了 Python 在 进程 间 通 信 (IPC) 期 间 所 提供 的 同步 ， 你 会 遭 
受挫 折 (再 一 次 回 到 撕 扯 头发 的 境地 )。 无 论 如 何 ， 在 这 个 问题 中 ， 不 介意 一 个 或 
多 个 进程 同时 设置 标记 一 一 标记 只 会 在 一 个 方向 上 切换 ， 每 过 一 段 时 间 读 取 它 时 ， 
就 会 知道 搜索 是 否 能 被 取消 。 


因为 我 们 在 并 行 搜索 期 间 从 不 重 置 标记 状态 , 我 们 就 不 必 同 步 。 注 意 这 样 可 能 不 会 
适用 于 你 的 问题 。 如 果 你 避 开 了 同步 ， 请 确保 你 以 正确 的 理由 来 这 样 做 。 


如 果 你 想 要 像 更 新 一 个 共享 计数 器 那样 来 做 ， 请 看 一 下 Value 的 文档 ， 并 以 
value.get lock () 来 使 用 一 个 上 下 文 管理 器 ， 因 为 对 一 个 Value 隐 式 加 锁 不 允 
许 原 子 操 作 。 


这 个 例子 看 上 去 与 之 前 的 Manager 例子 很 类 似 。 仅 有 的 差异 就 是 在 例 9-19 中 我 们 
创建 了 RawValue 作为 一 个 1 字 节 (byte) 的 标记 。 


例 9-19 创建 并 传递 一 个 RawValue 

宇 下 name == " main 
NBR_PROCESSES = 4 
Value =multiprocessing.RawValue (b'c', FLAG CLEAR) #1-byte character 
pool = Pool (processes=NBR PROCESSES) 








































































































使 用 受 管理 的 值 和 原始 值 的 灵活 性 正 是 在 multiprocessing 中 为 共享 数据 所 做 
的 干净 设计 而 得 到 的 收益 。 

9.5.7 使 用 mmap 作为 一 个 标记 

最 后 ， 我 们 得 到 了 共享 字 节 的 最 快 的 方式 。 例 9-20 展示 了 使 用 mmap 模块 的 内 存 
映射 (共享 内 存 ) 的 解决 方式 。 共 享 内 存 块 中 的 字 节 没有 被 同步 ， 它 们 几乎 没有 什 
么 开销 。 它们 表现 得 就 像 一 个 文件 一 一 在 这 种 情况 下 , 它们 就 是 具有 类 似 文件 接口 
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的 一 个 内 存 块 。 我 们 必须 要 定位 到 一 个 位 置 上 并 连续 地 进行 读 或 写 。 典 型 情况 下 ， 














mmap 被 用 来 给 出 一 个 较 大 文件 的 一 个 短小 的 视图 (内存 映射 )， 但 是 在 我 们 的 用 例 





中 ,不 是 指明 一 个 文件 号 作为 第 一 个 参数 ， 而 是 传递 -1 来 表明 我 们 








内 存 块 。 我 们 也 能 够 指明 我 们 是 否 想 要 只 读 或 只 写 存 取 权限 (我 人 
这 是 默认 的 权限 )。 


例 9-20 由 mmap 来 使 用 一 个 共享 内 存 标 记 


sh mem = mmap.mmap(-1, 1) # memory map 1 byte as a flag 


def check prime in range((n, (from i, to i))): 
if n $ 2 == 
return False 
assert. from i 多 2 1=: 0 
Check every = CHECK EVERY 
for i in xrange (from i, int(to i), 2): 
check every -= 1 
ifnot. Check every: 
sh mem.seek(0) 
flag = sh mem.read byte () 
if- flag ==" FLAG. SET: 
return False 
check every = CHECK EVERY 
if n $ i == 
sh mem.seek(0) 
sh mem.write byte (FLAG SET) 
return False 
return True 


def check prime(n, pool, nbr processes): 


想 要 一 个 匿名 的 
] 想 要 全 部 权限 ， 


# cheaply check high-probability set of possible factors 


fom T= 

GE 一 SERIAL CHECK CUTOFF 

sh mem.seek(0) 

sh mem.write byte (FLAG CLEAR) 

if not check prime in range((n, (from i, to i))): 
return False 





if False in results: 
return False 
elu 下 省 证 避 


mmap 支持 很 多 方法 ,能 够 被 用 来 在 它 所 代表 的 文件 中 腾挪 (包括 





ind.readline 


和 write)。 我们 正在 以 最 基本 的 方式 来 使 用 它 一 一 我 们 在 开始 每 一 个 读 或 写 之 前 





multiproce 
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都 定位 到 内 存 块 的 起 点 处 ,既然 我 们 只 共享 一 个 字 节 ,我 们 显示 地 使 用 read_byte 
和 write byte。 


没有 加 锁 和 解释 数据 的 Python 开销 ， 我 们 直接 用 操作 系统 来 处 理 字 节 ， 所 以 这 是 
最 快 的 通信 方式 。 


9.5.8 使 用 mmap 作为 一 个 标记 的 终极 效果 

尽管 前 面 mmap 的 结果 整体 上 已 经 是 最 好 了 , 我 们 还 是 情不自禁 地 想到 对 于 出 现 素 
数 的 代价 最 高 的 情况 下 , 我 们 只 能 回 到 Naive Pool 的 结果 。 目标 就 是 去 接受 无 法 从 
内 循环 中 提早 退出 的 现实 ， 并 且 最 小 化 任何 没有 直接 关联 的 开销 。 


本 节 有 呈现 了 一 种 稍微 复杂 一 点 的 解决 方案 。 尽 管 这 个 mmap 的 结果 还 是 最 快 的 , 但 
是 能 够 对 其 他 我 们 已 见 到 的 基于 标记 的 方法 做 出 相同 的 修改 。 


在 之 前 的 例子 中 ， 我 们 已 经 使 用 了 CHECK_EVERY。 这 意味 着 我 们 可 以 有 check 


next 局 部 变量 来 跟踪 、 减 少 ， 并 使 用 布尔 测试 个 运算 给 每 一 次 迭代 增添 
了 一 点 额外 的 时 间 。 在 验证 一 个 大 素数 的 情况 下 , 这 种 额外 的 管理 开销 发 生 了 超过 
300000 次 。 


在 例 9-21 中 展示 的 第 一 个 优化 就 是 认识 到 我 们 可 以 用 一 个 向 前 看 (look-ahead) 的 
值 取代 递减 的 计数 器 ,接着 我 们 只 要 在 内 循环 中 做 一 个 布尔 变量 的 比较 即 可 。 这样 
就 移 除 了 递减 ， 归 因 于 Python 的 解释 风格 ， 递 减 相当 慢 。 这 个 优化 用 CPython2.7 
在 这 个 测试 中 可 以 工作 , 但 是 它 不 可 能 在 更 智能 的 编译 器 〈 例 如 ，PyPy 或 Cython) 
中 提供 任何 收益 。 当 检测 我 们 其 中 一 个 大 素数 时 ， 这 个 步骤 节省 了 0.7 秒 的 时 间 。 


例 9-21 开始 优化 掉 我 们 代价 高 昂 的 逻辑 
def check Prime in range((n, (from i, to i))): 
if n $ 2 == 0: 
return False 
assert 二 -om 1 % 2 4="0 
check next = from i + CHECK EVERY 
for i in xrange (from i, int(to i1), 2): 
if GNeok: next == 
sh mem.seek(0) 
flag = sh mem.read byte () 
if flag == FLAG SET: 
return False 
Check next += CHECK _ EVERY 


































































































if n %% i == 0; 
sh mem.seek(0) 
sh mem.write byte (FLAG SET) 
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return False 
retumrm "Trae 


我 们 也 能 够 通过 把 循环 展开 成 两 阶段 过 程 的 方式 来 整体 替换 计数 器 所 代表 的 逻辑 ， 
就 如 在 例 9-22 中 所 显示 的 那样 。 首 先 ， 外 循环 涉及 期 望 区 间 ， 但 是 以 逐步 的 方式 作 
用 在 CHECK_EVERY 上 。 其 次 ， 一 个 新 的 内 循环 取代 了 check_every 逻辑 一 一 它 
检查 局 部 因子 区 间 ， 接 着 就 结束 了 。 这 就 等 价 于 if not check every:test。 
我 们 用 之 前 sh_mem 的 逻辑 跟踪 它 来 检查 早退 标记 。 


例 9-22 ”优化 掉 我 们 代价 高 昂 的 逻辑 


def check Prime in range((n, (from i, to i))): 



























































if n % 2 == 0: 
return False 
AassSertr fom lS 2 4 0 


for outer counter in xrange (from i, int(to i), CHECK EVERY): 
upper bound = min(int(to i), outer counter + CHECK EVERY) 
for i in xrange (outer counter, upper bound, 2): 
if ni == 0: 
sh mem.seek(0) 
sh mem.write byte (FLAG SET) 
return False 
sh mem.seek(0) 
flag = sh mem.read byte () 
if f1ag == FLAG SET: 
return False 
return True 


这 对 速度 的 影响 是 巨大 的 。 对 于 非 素数 的 情况 甚至 提高 得 更 多 ， 但 是 更 重要 的 是 ， 
我 们 的 素数 检测 已 经 几乎 和 Less Naive Pool 的 版 本 一 样 快 了 (现在 只 慢 了 0.05 秒 )。 
在 我 们 已 经 用 进程 间 通 信 做 了 很 多 额外 工作 的 前 提 下 ， 这 是 非常 邻 人 感 兴 趣 的 结 
果 。 然 而 ， 要 注意 的 是 ， 它 是 针对 CPython 的 ， 当 通过 编译 器 运行 时 不 可 能 得 到 任 
何 收益 。 


我 们 甚至 能 够 走 得 更 远 (但 坦率 地 说 ,这 有 点 儿 春 )。 查 找 不 在 局 部 域 中 声明 的 变量 
销 有 点 高 。 我 们 可 以 创建 全 局 FLAG_SET 和 频繁 使 用 的 . seed() 和 .read_pyte () 
方法 的 的 局 部 引用 来 避免 代价 更 高 的 查找 。 然 而 ,结果 代码 ( 例 9-23) 的 可 读 性 其 
至 比 前 面 的 还 差 , 我 们 真 的 不 推荐 你 这 样 做 。 当 检测 更 大 的 素数 时 ,这 个 最 终结 
比 Less Naive Pool 版 本 要 慢 上 1.5%。 在 我 们 对 非 素数 得 到 了 4.8 倍加 速 的 前 提 下 ， 
我 们 可 能 采用 这 个 例子 来 看 看 它 究竟 (应 该 ) 能 运行 多 快 。 

例 9-23 打破 “不 要 伤害 团队 速度 ”的 规则 来 竭力 得 到 一 个 额外 的 加 速 

def check prime in range((n, (from i, to i))): 


if n %$ 2 == 0: 
return False 
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assert from i % 2 != 0 
FLAG SET LOCAL = FLAG SET 
sh seek = sh mem.seek 
sh read byte = sh mem.read byte 
for outer counter in xrange (from i, int(to i), CHECK EVERY) : 
upper pound = min(int (to i), outer counter + CHECK EVERY) 
for i in xrange (outer counter, upper bound, 2): 
if ni == 0; 
sh_ seek(0) 
sh mem.write byte (FLAG SET) 
return False 
sh_ seek(0) 
if sh read byte() == FLAG SET LOCAL: 
return False 
return True 


使 用 手工 循环 展开 和 创建 全 局 对 象 的 局 部 引用 的 行为 是 愚蠢 的 。 整 体 上 , 它 让 代码 
变 得 更 难以 理解 ， 从 而 受 困 于 更 低 的 团队 速度 ， 事 实 上 这 是 编译 器 的 工作 (例如 ， 
一 个 类 似 PyPy 的 JIT 编译 器 或 者 一 个 类 似 Cython 的 静态 编译 器 ) 。 


人 们 不 应 该 做 这 种 类 型 的 操作 ， 因 为 它 是 很 脆弱 的 。 我 们 用 Python 3+ 没 有 测 出 这 
种 优化 方式 , 而且 我 们 不 想 要 一 一 我 们 不 真心 期 待 这 些 递 进 的 提高 在 另外 的 Python 
版 本 (当然 不 是 在 不 同 的 实现 上 ， 类 似 PyPy 或 IonPython) 上 能 工作 。 

我 们 向 你 展示 过 了 ， 所 以 你 知道 它 或 许 是 可 能 的 ， 并且 提醒 你 保持 理智 ,你 真 的 应 
该 让 编译 器 来 为 你 负责 这 种 类 型 的 工作 。 



















































































9.6 用 multiprocessing 来 共享 numpy 数据 


当 工 作 于 大 numpy 数组 时 ， 你 一 定 会 想 知 道 是 否 能 够 在 进程 间 为 读 写 存 取 来 共享 
数据 ， 而 不 用 拷贝 数据 。 这 是 可 能 的 ， 尽管 有 一 点 烦琐 。 为 了 这 个 演示 的 灵感 ， 我 
们 要 感谢 StackOverflow 的 用 户 pv。 








警告 

4 不 要 使 用 这 个 方法 来 重建 BLAS、MKL、Accelerate 和 ATLAS 的 行 

[4 ， 为 。 这 些 库 都 用 它们 的 原 语 来 支持 multiprocessing, 可 能 它们 要 比 你 
所 创建 的 任何 新 例 程 更 好 调试 。 尽 管 它们 会 需要 一 些 配置 来 开启 
multiprocessing 支持 ， 但 是 在 你 投入 时 间 (也 失去 了 调试 的 时 间 !) 
来 写 你 自己 的 代码 之 前 ， 看 看 这 些 库 是 否 能 够 给 你 带 来 免费 的 速度 
提升 是 明智 的 。 
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在 进程 间 共 享 一 个 大 矩阵 有 几 个 收益 ; 

。 ”只 有 一 个 拷贝 意味 着 没有 浪费 RAM。 

。 不 浪费 时 间 来 拷贝 大 块 内 存 。 

。 ”你 得 到 了 在 进程 间 共 享 部 分 结果 的 可 能 性 。 


回想 起 9.3.3 节 中 使 用 numpy 来 估算 pi 的 演示 , 我 们 出 现 问 题 , 那 就 是 随机 数 生成 
是 一 个 串 行 过 程 。 在 这 里 ， 我 们 可 以 想象 派生 (fork) 进程 共享 了 一 个 大 数组 ， 每 
一 个 进程 使 用 不 同 种 子 的 随机 数 生成 器 用 随机 数 来 填充 数组 的 一 个 区 域 , 因此 生成 
完 一 个 大 随机 块 可 能 要 比 用 一 个 单独 的 进程 要 快 。 


为 了 验证 它 , 我 们 修改 了 接 下 来 的 演示 代码 来 以 一 个 串 行 过 程 创建 一 个 大 随机 矩阵 
(10000 乘 80000 个 元 素 ), 再 把 矩阵 拆 分 成 4 段 来 并 行 调用 random (在 这 两 种 情况 
下 ， 同 一 时 间 处 理 一 行 )。 串 行 过 程 花 费 15 秒 , 并行 版 本 花费 4 秒 。 回 去 参考 9.3.2 
节 来 理解 并 行 化 随机 数 生成 器 的 一 些 危险 性 。 


在 本 闻 的 余下 部 分 ， 我 们 会 使 用 一 个 简化 的 版 本 来 演示 一 点 ， 而 剩 下 的 容易 验证 。 


在 图 9-19 中 , 你 能 看 见 Ian 的 笔记 本 电脑 上 的 htop 输出 。 它 显示 了 4 个 子 进程 的 
父 进 程 (PID 是 11268) ， 所 有 这 5 个 进程 共享 了 一 个 单独 的 10000 x 80000 个 元 素 
的 double 型 的 numpy 数组 。 这 个 数组 的 一 份 拷 贝 耗费 6.4GB ， 而 笔记 本 电脑 只 有 
8GB 一 一 你 能 看 见 在 htop 中 通过 进程 计量 器 显示 出 Mem 读 取 最 多 占用 了 7491MB 
的 RAM。 

















Terminal 


Terminal x Terminal x Terminal X Terminal x 


0.83 9.63 


python np_shared.py 
python np_shared.py 
python np_shared.py 
python np_shared.py 
python np_shared.py 
python np_shared.py 
python np_shared.py 
VAAN A A A IN 
python /usr/Lib/Linuxmint/VmintU 
python /usr/Lib/LinuxmintVmi 
python /usr/Lib/Linuxmint/Vmi 
/usrVbinVpython /usr/bin/Vcinnamon-Lau 
/usr/bin/python /usr/bin/cinnamon- 


7.8 
7.9 
7.6 
9.4 
9.4 
9.4 
9.4 
9.9 
8.2 
0.2 
8.2 
9.1 
6.1 




















9-19 htop 显示 了 RAM 和 swap 使 用 
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为 了 理解 这 个 演示 ， 我 们 会 首先 过 一 遍 控 制 台 的 输出 ， 接 着 我 们 会 看 看 代码 。 在 
例 9-24 中 , 我 们 启动 了 父 进程 : 它 分 配 了 一 个 6.4GB 的 double 型 的 10000 x 80000 
维 的 数组 ， 以 零 值 来 填充 。10000 行 会 作为 索引 传递 给 工作 者 函数 ， 工 作者 将 依次 
在 每 列 80000 项 上 操作 。 已 经 分 配 了 数组 , 我 们 就 用 生命 、 宇 宙 ， 以 及 万 物 的 答案 
(421) 来 填充 。 我 们 能 够 在 工作 者 函数 中 测试 我 们 正 接收 着 这 个 修改 过 的 数组 以 
及 一 个 非 填充 0 的 版 本 来 确认 这 份 代码 的 表现 和 预期 的 一 样 。 


例 9-24 设置 共享 数组 

$ python np shared.py 

Created shared array with 6,400,000,000 nbytes 
Shared array id is 20255664 in PID 11268 
Starting with an array of 0 values: 

bl Oe O00 sgh OFss Oy: Os 


















































Original array filled with value 42: 
[[ 42. 42. 42. ..., 42. 42. 42.] 





42. 42. 42. ..., 42. 42. 42.]] 
Press a key to start workers using multiprocessing... 


在 例 9-25 中 ， 我 们 已 经 启动 了 4 个 进程 工作 于 这 个 共享 数组 。 不 做 任何 的 数组 拷 
贝 , 每 个 进程 着 眼 于 相同 的 大 内 存 块 ,并且 每 个 进程 有 不 同 的 索引 集 来 工作 。 工 作 
者 每 隔 几 千 行 输出 当前 的 索引 和 它 的 PID， 所 以 我 们 可 以 观察 它 的 行为 。 工 作者 的 
任务 是 琐碎 的 蕊 会 检查 当前 元 素 还 是 设置 在 默认 值 ( 所 以 我 们 知道 没有 其 他 进 
程 修改 过 它 )， 接 着 它 会 用 当前 PID 覆盖 掉 这 个 值 。 一 旦 工作 者 完成 了 ， 我 们 就 回 
到 父 进 程 ， 再 次 打印 数组 。 这 次 ， 我 们 看 见 它 填 充 了 PID 而 不 是 42。 

例 9-25 在 共享 数组 上 运行 worker fn 


worker fn: with idx 0 
id of shared array is 20255664 in PID 11288 





















































worker fn: with idx 2000 

id of shared array is 20255664 in PID 11291 
worker fn: with idx 1000 

id of shared array is 20255664 in PID 11289 

















worker fn: with idx 8000 
id of shared array is 20255664 in PID 11290 

















The default value has been over-written with worker fn's result: 





bil: T1288 L1288: T1288 War dLZ88;, T1288 T1286] 
[L291 L291 L290L ys op L290L. L291, ;TL291 |] 
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后 ， 在 例 9-26 中 我 们 使 用 了 一 个 计数 器 来 确认 在 数组 中 的 每 个 PID 的 频率 。 
为 工作 是 均匀 划分 的 ， 我 们 期 待 4 个 PID 中 的 每 一 个 表示 相等 的 次 数 。 在 我 们 的 


800000000 个 元 素 的 数组 中 ， 我 们 看 到 了 4 组， 每 组 200000000 个 PID 。 


PrettyTable 来 呈现 表格 输出 。 
例 9-26 在 共享 数组 上 验证 结果 


Verification - extracting unique values from 800,000,000 items 
in the numpy array (this might be slow)... 
Unique values in shared array: 


下 书坊 = 本 一 三 二 二 二 二 二 十 
| PID | Count | 
= 二 二 二 二 二 二 = 三 二 二 三 十 
| 11288.0 | 200000000 | 
| 11289.0 | 200000000 | 
| 11290.0 | 200000000 | 
| A1291.0, | 这 00000000 | 
站 a + 


Press a key to exit... 


已 经 完成 了 ， 现 在 程序 退出 ， 数 组 被 删除 。 











使 用 


我 们 能 够 在 Linux ee 和 pmap 来 查看 每 个 进程 内 部 。 例 9-27 显示 了 调用 ps 

















的 结果 。 分 割 这 个 命令 

。 ps 告诉 我 们 有 关 进 程 的 信息 。 

。 -A 列 出 所 有 的 进程 。 

。 -o pid、size、vsize、cmd 输出 PID、 大 小 信息 和 命令 的 名 字 。 


。 grep 被 用 来 过 滤 掉 所 有 其 他 的 结果 并 且 只 留 下 给 我 们 演示 的 行 。 



































父 进程 (PID 11268) 和 它 的 4 个 派生 (fork) 子 进程 显示 在 了 输出 中 。 结 果 类 似 于 

















我 们 在 htop 中 所 见 的 。 我 们 可 以 使 用 pmap 来 看 看 每 个 进程 的 内 存 映 射 ， 




















用 -x 


来 请 求 扩展 输出 。 我 们 grep 出 模式 s- 来 列 出 标记 为 正在 共享 的 内 存 块 。 在 父 进 








程 和 子 进程 中 ， 我 们 看 见 一 个 6250000KB (6.2GB) 的 块 在 它们 之 间 共 享 。 
例 9-27 使 用 pmap 和 ps 来 查看 从 操作 系统 视角 中 看 到 的 进程 


$ ps -A -o pid,size,vsize,cmd | grep np_shared 
11268 232464 6564988 Python np_shared.py 
11288 11232 6343756 Python np_ shared.py 
11289 11228 6343752 Python np_ shared.py 
11290 11228 6343752 Python np_ shared.py 
11291 11228 6343752 Python np_ shared.py 
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ian@ian-Latitude-E6420 $ pmap -x 11268 | grep s- 
Address Kbytes RSS Dirty Mode Mapping 
00007f1953663000 6250000 6250000 6250000 rw-s- zero (deleted) 


ian@ian-Latitude-E6420 $ pmap -x 11288 | grep s- 
Address Kbytes RSS Dirty Mode Mapping 
00007f1953663000 6250000 1562512 1562512 rw-s- Zero (deleted) 


例 9-28 显示 了 为 共享 这 个 数组 所 采取 的 重要 步 又 。 我 们 使 用 一 个 multiprocessing. 
Array 来 分 配 一 块 共享 内 存 作 为 一 个 1 维 数组 。 接 着 我 们 从 这 个 对 象 中 实例 化 了 

一 个 numpy 数组 , 并 把 它 重 塑 回 一 个 2 维 数组 。 现 在 我 们 有 一 个 numpy 包装 的 内 

存 块 ， 能 够 在 进程 间 共 享 ， 并 且 能 够 像 一 个 普通 numpy 数组 那样 来 寻 址 。numpy 

没有 管理 RAM，multiprocessing.Array 在 管理 它 。 





















































例 9-28 使 用 multiprocessing 来 共享 numpy 数组 


import os 

import multiprocessing 

from collections import Counter 
import ctypes 

import numpy as np 

from prettytable import PrettyTable 


SIZE A, SIZE B= 10000, 80000 #6.26GB - starts to use swap (maximal RAM usage) 


在 例 9-29 中 ,我 们 可 以 看 见 每 个 派生 (fork) 进 程 访 问 了 一 个 全 局 的 main_nparray。 
派生 (fork) 进程 有 一 个 numpy 对 象 的 拷贝 ， 对 象 所 访问 的 底层 字 节 作为 共享 内 存 
来 存储 。 我 们 的 worker_fn 将 使 用 当前 的 进程 标识 符 来 覆 写 一 个 被 选取 的 行 〈 通 
过 idx)。 
































例 9-29 ”worker fp 为 共享 numpy 数组 使 用 multiprocessing 


def worker fn(idx): 
"""Do some work on the shared np array on row idx"™"" 
# confirm that no other process has modified this value already 
assert main nparraylidx, 0] == DEFAULT VALUE 
# inside the subprocess print the PID and id of the array 
# to check we don't have a copy 
if idx $ 1000 == 
print " {}: with idx {}\n id of local nparray in process is {} in PID {}"\ 
.format (worker fn. name , idx, id(main nparray), os.getpid()) 
# we can do any work on the array; here we set every item in this row to 
# have the value of the Process ID for this process 
main nparray[lidx, :] = os.getpid() 


在 我 们 例 9-30 的 ”main 中， 我 们 通过 三 个 主要 阶段 来 工作 : 
1. 构建 一 个 共享 的 multiprocessing.Array 并 却 把 它 转换 成 一 个 numpy 数组 。 
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2. 给 数组 设置 一 个 默认 值 ， 并 生成 4 个 进程 来 并 行 地 在 数组 上 工作 。 
3. 在 进程 返回 后 ， 验 证 数组 的 内 容 。 


典型 情况 下 ， 你 设置 了 一 个 numpy 数组 ， 并 在 一 个 单独 的 进程 中 工作 ， 可 能 就 像 
arr = np.array((100，5)，qtype = np.float_ ) 那 样 来 做 些 事情 。 这 在 
一 个 单独 进程 中 不 错 ， 但 是 你 不 能 跨 进程 来 共享 数据 ， 既 不 能 写 ， 也 不 能 读 。 


技巧 就 是 创建 一 个 共享 的 字 节 块 。 一 种 方式 是 创建 一 个 multiprocessing. 
Array。Array 默认 包 在 锁 中 来 防止 并 发 编辑 ， 但 是 我 们 不 需要 这 把 锁 ， 因 为 我 
们 会 对 我 们 的 共享 模式 小 心 惨 器 。 为 了 清晰 地 与 其 他 组 员 进 行 沟 通 , 把 它 显 式 化 并 
设置 lock = False 是 值得 的 。 


如 果 你 不 去 设置 lock = False， 那 么 你 会 得 到 一 个 对 象 ， 而 不 是 一 个 对 字 节 的 
引用 , 并且 你 需要 调用 .get_obj () 来 得 到 字 节 。 通 过 调用 .get_obj () ， 你 绕 开 
了 锁 ， 所 以 在 第 一 步 中 ， 不 显 式 地 去 做 ， 就 没有 任何 值 。 


接 下 来 我 们 就 采用 这 个 共享 字 节 块 , 并 使 用 frombuffer 来 包装 成 一 个 numpy 数 
组 。dtype 是 可 选 的 ， 但 是 既然 我 们 是 在 传送 字 节 ， 显 式 化 总 是 合理 的 。 我 们 做 
了 重 塑 ， 这 样 我 们 就 能 够 以 一 个 2 维 数组 来 寻 址 字 节 。 数 组 值 默认 设置 成 了 0。 例 
9-30 显示 出 我 们 的 _ main 是 满 的 。 


例 9-30 ”为 共享 而 设置 numpy 数组 的 主 函 数 
if name == ' main ': 

DEFAULT VALUE = 42 

NBR OF PROCESSES = 4 






































































































































# create a block of bytes, reshape into a local numpy array 

NBR_ ITEMS IN ARRAY = SIZE A * SIZE B 

shared array base = multiprocessing.Array (ctypes.c double, 
NBR_ITEMS IN ARRAY, lock=False) 

main nparray = np.frombuffer (shared array base, dtype=ctypes.c double) 

main nparray = main nparray.reshape (SIZE A, SIZE B) 

# assert no copy was made 

assert main nparray.base.base is shared array base 

print "Created shared array with {:,} nbytes".format (main nparray.nbytes) 

print "Shared array id is {} in PID {}".format (id(main nparray), os.getpid () ) 

print "Starting with an array of 0 values:" 





print main nparray 
print 


为 了 证 实 我 们 的 进程 是 在 我 们 所 启动 的 相同 的 数据 块 上 操作 , 我 们 会 为 每 一 项 设置 
一 个 新 的 DEFAULT_VALUE 一 一 所 以 你 会 看 到 在 例 9-31 的 项 部 (我们 用 生命 、 宇 
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宙 和 万 物 的 答案 )。 下 一 步 ， 我 们 构建 了 一 个 进程 池 (在 这 个 例子 中 是 4 个 进程 )， 


接着 通过 调用 map 来 批量 发 送行 索引 。 


例 9-31 使 用 multiprocessing 来 共享 numpy 数组 的 主 函 数 





上 





# modify the data via our local numpy array 

main nparray.fill (DEFAULT VALUE) 

print "Original array filled with value {}:".format (DEFAULT VALUE) 
print main nparray 





raw input ("Press a key to start workers using multiprocessing...") 
print 


# create a pool of processes that will share the memory block 

# of the global numpy array, and share the reference to the underlying 
# block of data so we can build a numpy array wrapper in the new processes 
pool = multiprocessing.Pool (processes=NBR OF PROCESSES) 

# perform a map where each row index is passed as a parameter to the 

# worker fn 

pool.map (worker fn, xrange (SIZE A)) 








一 旦 我 们 完成 了 并 行 处 理 ， 我 们 回 到 父 进程 来 验证 结果 ( 例 9-32)。 验 证 步骤 在 数 
组 上 通过 一 个 平面 化 的 视图 来 运行 (注意 , 视图 不 做 拷贝 ， 它 只 是 在 2 维 数组 上 创 





es 














了 一 个 1 维 的 可 选 代 视图 ) ， 为 每 个 PID 的 频率 计数 。 最 后 ， 我 们 执行 了 一 些 


assert 检查 来 确保 我 们 得 到 了 期 望 的 计数 。 





例 9-32 ”验证 共享 结果 的 主 函 数 


print "Verification - extracting unique values from {:,} items\nin the numpy 
array (this might be slow)...".format (NBR ITEMS IN ARRAY) 

# main nparray.flat iterates Over the contents of the array, it doesn't 

# make a copy 

counter = Counter (main nparray.flat) 

print "Unique values in main nparray:" 

tbl = PrettyTable(["PID", "Count"]) 

for pid, count in counter.items(): 
tbl.add row([pid, count]) 

print tbl 


total items set in array = Sum(counter.values () ) 


# check that we have set every item in the array away from DEFAULT VALUE 
assert DEFAULT VALUE not in counter.keys() 

# check that we have accounted for every item in the array 

assert total items set in array == NBR ITEMS IN ARRAY 

# check that we have NBR OF PROCESSES of unique keys to confirm that every 
# process did some of the work 

assert len(counter) == NBR OF PROCESSES 


raw input ("Press a key to exit...") 
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我 们 只 创建 了 一 个 1 维 的 字 节 数组 , 把 它 转换 为 一 个 2 维 数组 , 在 4 个 进程 间 共 享 
数组 , 并 允许 它们 在 相同 的 内 存 块 上 并 发 处 理 。 这 种 方法 有 助 你 在 许多 核 上 搞 并 行 
化 。 然而, 要 小 心 对 相同 数据 点 的 并 发 存 取 一 一 如 果 你 想 要 避免 同步 的 问题 ,你 就 
不 得 不 在 multiprocessing 中 使 用 锁 ， 这 会 拖 慢 你 的 代码 。 


9.7 ”同步 文件 和 变量 访问 


在 下 面 的 例子 中 ,我 们 会 看 看 多 进程 共享 和 操控 一 个 状态 一 一 在 这 种 情况 下 ,4 个 
进程 以 一 定 次 数 递增 一 个 共享 的 计数 器 。 缺 少 同步 过 程 的 话 ， 计 数 就 是 不 正确 的 。 
如 果 你 要 以 一 种 一 致 性 的 方式 来 共享 数据 的 话 , 你 总 是 需要 一 个 方法 来 同步 数据 的 
读 写 ， 不 然 你 就 会 在 错误 中 结束 。 
型 情况 下 ， 同 步 方 法 和 你 所 使 用 的 特定 操作 系统 (OS) 息息相关 ， 而 且 它们 还 
常常 和 你 所 使 用 的 特定 语言 息息相关 。 在 这 里 ， 我 们 就 看 看 使 用 Python 库 的 基于 
文件 的 同步 ， 在 Python 进程 间 共享 一 个 整数 对 象 。 

9.7.1 文件 锁 

读 写 一 个 文件 是 在 本 节 中 共享 数据 的 最 慢 的 例子 。 

你 可 以 在 例 9-33 中 看 看 我 们 第 一 个 工作 函数 。 该 函数 在 一 个 局 部 计数 器 上 做 迄 代 。 
在 每 一 次 迭代 中 ， 它 打开 了 一 个 文件 ， 读 取 已 存在 的 值 ， 自 增 1， 然 后 用 新 的 值 覆 
写 掉 老 的 值 。 在 第 一 次 迭代 中 , 文件 会 是 空 的 或 者 不 存在 ， 所 以 它 会 捕 提 一 个 异常 
并 假设 值 应 该 为 零 。 

例 9-33 ”没有 锁 的 工作 函数 


def work (filename, max count) 





























































































































for n in range (max _ Count) : 
" 


f = open (filename, "r") 





CE 
nbr = int(f.read()) 

except ValueError as err: 
print "File is empty, starting to count from 0, error: "+ str(err) 
nbr = 0 

f = open (filename, "w") 

f.write(str(nbr + 1) + '\n') 

f.close() 


让 我 们 用 一 个 进程 来 运行 这 个 例子 。 你 能 在 例 9-34 中 看 见 输出 。 工 作 函 数 被 调用 
了 1000 次 ， 正 如 所 期 望 的 那样 ， 它 计数 正确 ， 没 有 损失 任何 数据 。 在 第 一 次 读 取 
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时 ， 见 到 了 一 个 空 文件 。 这 会 为 int () 抛 出 invaliq literal for int() 的 
错误 〈 因 为 在 一 个 空 字符 串 上 调用 了 int () )。 这 个 错误 只 发 生 了 一 次 , 之 后 ,我 
们 总 是 会 有 一 个 合法 的 值 用 于 读 取 并 把 它 转变 成 一 个 整数 。 

例 9-34 不 用 锁 ， 用 一 个 进程 来 做 基于 文件 的 计数 的 用 时 


$ Python exl nolock.py 














Starting 1 process (es) to count to 1000 

File is empty, starting to count from 0, 

error: invalid literal for int() with base 10: '"' 
Expecting to see a count of 1000 

count .txt contains: 

1000 


现在 我 们 将 用 4 个 并 发 进程 来 运行 相同 的 工作 函数 。 我们 没有 任何 加 锁 的 代码 , 所 
以 我 们 将 期 望 有 一 些 奇怪 的 结果 。 
问题 
在 你 查看 下 面 的 代码 前 ， 当 两 个 进程 同时 从 相同 的 文件 读 取 或 写 入 
的 时 候 ， 你 会 期 待 看见 哪 两 种 类 型 的 错误 呢 ? 思考 一 下 代码 的 两 种 
主要 状态 (每 个 进程 的 开始 执行 处 和 每 个 进程 的 正常 运行 状态 )。 














瞧 例 9-35 来 看 这 个 问题 。 首 先 ， 当 每 个 进程 启动 时 ,文件 是 空 的 ， 所 以 它们 都 设 
法 从 零 开 始 计数 。 第 二 ， 当 一 个 进程 写 时 ， 另 一 个 进程 能 够 读 到 一 个 部 分 写 完 的 不 
能 被 解析 的 结果 。 这 会 导致 异常 ， 就 会 写 回 零 。 这 样 依次 进行 ， 导致 我 们 的 计数 器 
保持 在 重 置 状态 ! 你 能 看 到 \n 和 两 个 值 如 何 被 两 个 并 发 进程 写 人 到 同样 的 打开 文 
件 中 ， 导 致 第 三 个 进程 读 取 了 一 个 无 效 项 吗 ? 


例 9-35 不 用 锁 ， 使 用 4 个 进程 基于 文件 的 计数 的 用 时 


$ Python exl nolock.py 








Starting 4 process (es) to count to 4000 

File is empty starting to count from 0, 

error: invalid literal for int() with base 10: ''"' 

File is empty, starting to count from 0, 

error: invalid literal for int() with base 10: '1\n7\n' 
# many errors like these 





Expecting to see a count of 4000 

count .txt contains: 

629 

$ Python -m timeit -~s "import exl nolock" "ex1l nolock.run workers()" 
10 loops, best of 3: 125 msec per loop 


例 9-36 展示 了 用 4 个 进程 调用 工作 函数 的 multiprocessing 代码 。 注意 我 们 没 
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有 使 用 
功能 性 


文档 来 








map， 而 是 构建 了 一 个 Process 对 象 的 列表 。 尽 管 我 们 在 这 里 不 使 用 它 的 
， 但 Process 对 象 给 予 我 们 能 力 来 内 省 每 个 进程 的 状态 。 我 们 鼓励 你 读 读 


学 习 为 什么 你 可 能 想 要 使 用 Process, 


例 9-36 run _workers 设置 4 个 进程 


import multiprocessing 


import os 


MAX_COUNT_PER_PROCESS = 1000 


上 工 荆 ] 


def 


if 





ENAME = "count.txt" 


run workers(): 

NBR_ PROCESSES = 4 

total expected count = NBR PROCESSES * MAX COUNT PER PROCESS 

print "Starting {} process(es) to count to {}".format (NBR PROCESSES, 
total expected count) 

# reset counter 

f = open (FILENAME, "“w") 

f.close() 


processes = [] 
for process nbr in range (NBR PROCESSES): 
p = multiprocessing.Process (target=work, args= (FILENAME, 
MAX COUNT PER PROCESS)) 





p.start () 
processes .append (p) 


for p in processes: 
p.join() 


print "Expecting to see a count of {}".format (total expected count) 
print "{} contains:".format (FILENAME) 
os.system('more ' + FILENAME) 


nm 。 


name == " main 





使 用 1 


run workers () 


ockfile 模块 ， 我 们 能 够 引入 一 种 同步 方法 ， 这 样 在 同一 时 刻 只 有 一 个 进 

















程 写 , 其 他 进程 都 要 等 待 轮 到 它们 的 时 候 。 因此 整体 过 程 运行 得 更 慢 , 但 不 会 犯错 。 
你 可 以 在 例 9-37 中 看 到 正确 的 输出 。 你 会 发 现在 线 的 完整 文档 。 注 意 加 锁 机 制 和 


Python 











息息相关 , 这 样 其 他 正在 查看 这 个 文件 的 进程 不 会 关心 这 个 文件 已 经 “被 加 


锁 ” 的 本 质 。 
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例 9-37 使 用 锁 和 4 个 进程 基于 文件 的 计数 的 用 时 


$ Python exl lock.py 

Starting 4 process (es) to count to 4000 

File is empty, starting to count from 0, 

error: invalid literal for int() with base 10: '"' 

Expecting to see a count of 4000 

Count .txt contains: 

4000 

$ Python -m timeit -~s "import exl lock" "exl lock.run workers ()" 
10 loops, best of 3: 401 msec Per loop 


使 用 lockfile 只 是 增加 了 几 行 代码 。 首 先 ， 我 们 创建 了 一 个 FileLock 对 象 ， 
文件 名 可 以 是 任意 的 , 但 使 用 和 你 要 加 锁 的 文件 相同 的 名 字 让 命令 行 调试 变 得 更 简 
单 。 当 你 请 求 得 到 锁 时 ，FileLock 用 相同 的 名 字 打 开 了 一 个 新 文件 ， 用 .lock 
作为 后 级 名 。 


没有 任何 参数 的 acquire 会 无 限期 阻塞 ， 直 到 锁 变 得 可 用 。 一 旦 你 拿 到 了 锁 ， 你 
就 能 够 做 你 的 处 理 ， 而 没有 任何 冲突 风险 。 接 着 一 旦 你 写 完 ( 例 9-38)， 你 就 可 以 
释放 锁 。 

例 9-38 有 锁 的 工作 函数 


def work (filename, max count): 












































lock = lockfile.FileLock (filename) 
for n in range (max count): 
lock.acquire() 
f = open(filename, "r") 
trY: 
nbr = int(f.read()) 
except ValueError as err: 
print "File is empty, starting to count from0, error: "+str(err) 
nbr = 0 
f = open(filename, "w") 
f.write(str(nbr + 1) + '\n') 
f.close() 
lock.release() 


你 可 以 使 用 一 个 上 下 文 管理 器 ， 在 这 种 情况 下 ， 你 用 lock: 来 代替 acquire 和 
release。 这 给 运行 时 增加 了 少量 的 开销 ， 但 是 也 让 代码 变 得 更 容易 读 一 点 。 清 
晰 度 常常 优 于 执行 速度 。 

你 也 能 够 用 一 个 timeout 来 请 求 acquire 锁 ， 检 查 已 经 存在 的 锁 ， 并 打上 断 已 经 


存在 的 锁 。 提 供 了 几 种 加 锁 机 制 ， 对 每 个 平台 敏感 的 默认 选项 隐藏 在 了 FilelIocK 
接口 后 面 。 
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9. 


7.2 给 Value 加 锁 


multiprocessing 模块 在 进程 间 提 供 了 几 个 选项 来 共享 Python 对 象 。 我 们 能 
用 低 开销 的 通信 来 共享 基础 对 象 , 也 能 用 一 个 Manager 来 共享 更 高 级 别 的 Python 
对 象 ( 例 如， 字典 和 列表 ) (但 要 注意 同步 开销 会 显著 地 减 慢 数据 共享 )。 


在 
数 














这 里 ， 我 们 将 使 用 一 个 multiprocessing.Value 对 象 在 进程 间 共 享 一 个 整 





。 尽 管 Value 有 锁 ， 但 是 锁 没 有 尽 如 你 意 一 一 它 阻 止 了 同时 读 取 或 写 人 ， 但 是 











没有 提供 一 个 原子 的 递增 。 例 9-39 演示 了 这 种 情况 。 你 能 看 到 我 们 以 一 个 不 正确 
的 计数 来 终结 ， 这 就 类 似 于 我 们 在 之 前 看 到 的 基于 文件 的 不 同步 的 例子 。 


数 


























例 9-39 无 锁 导 致 计数 不 正确 

$ python ex2 nolock.py 

Expecting to see a count of 4000 

We have counted to 2340 

$ Python -m timeit -S "import ex2 nolock" "ex2 nolock.run workers()" 
100 loops, best of 3: 12.6 msec per loop 


据 没 有 发 生 损 坏 ， 但 是 我 们 错失 了 好 几 次 更 新 。 如 果 你 从 一 个 进程 写 人 一 个 















































Value, 再 在 另外 的 进程 中 消费 那个 Value (但 不 修改 ), 这 种 方式 就 可 能 是 合适 的 。 
共享 Value 的 代码 显示 在 了 例 9-40 中 。 我 们 不 得 不 声明 一 个 数据 类 型 和 一 个 初始 
值 一 一 使 用 Value (Vi”，0)， 我们 请 求 一 个 初始 值 为 0 的 有 符号 整数 。 它 被 当 
作 一 个 常规 参数 传递 给 我 们 的 Process 对 象 ， Process 对 象 负责 在 后 台 进 程 间 


二 


下 


字 

















享 相同 的 字 节 块 。 为 了 访问 由 我 们 的 Value 所 持 有 的 基础 对 象 ， 我 们 使 用 
.value。 注 意 我 们 正 请 求 一 个 原 地 的 加 法 一 一 我 们 期 待 它 变 为 一 个 原子 操作 ， 




















i 








日 是 Value 却 不 支持 ， 所 以 我 们 最 终 的 计数 比 预 期 要 低 。 


例 9-40 没有 锁 的 计数 代码 


import multiprocessing 





def work(value, max count): 
for n in range (max count): 
value.value += 1 


def run workers () : 


Value = multiprocessing.Value('i', 0) 

for process nbr in range (NBR PROCESSES): 
p= multiprocessing.Process (target=work, args=(value, MAX COUNT PER PROCESS)) 
p.start() 
processes .append (p) 
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我 们 能 够 增加 一 个 Lock, 它 就 会 以 与 我 们 之 前 所 看 到 的 FileLock 例子 很 类 似 的 
方式 来 工作 。 你 能 在 例 9-41 中 看 到 正确 同步 后 的 计数 。 


例 9-41 使 用 Lock 来 同步 写 一 个 Value 

# lock on the update, but this isn't atomic 

$ python ex2 lock.py 

Expecting to see a count of 4000 

We have counted to 4000 

$ Python -m timeit -~s "import ex2 lock" "ex2 lock.run workers()" 
10 loops, best of 3: 22.2 msec per loop 


在 例 9-42 中 ,我 们 已 经 使 用 了 一 个 上 下 文 管理 器 (有 Lock) 来 获取 锁 。 就 如 在 之 
前 的 FileLock 例子 中 那样 ， 它 无 限 等 待 来 获取 锁 。 


例 9-42 使 用 context manager 来 获取 锁 


import multiprocessing 











def work(value, max count, lock): 
for n in range (max count): 
with lock: 
value.value += 1 


def run workers(): 


processes = [|] 
lock = multiprocessing.Lock() 
value = multiprocessing.Value ('i', 0) 
for process nbr in range (NBR PROCESSES): 
p = multiprocessing.Process (target=work, 
args= (value, MAX COUNT PER PROCESS, lock)) 
pastart(y 
processes .append (p) 


就 如 在 FileLock 例子 中 的 那样 ， 避 免 使 用 上 下 文 管理 器 会 快 一 点 。 例 9-43 中 的 
片段 显示 了 怎样 使 用 和 释放 Lock 对 象 。 


例 9-43 ”内 联 加 锁 ， 而 不 用 上 下 文 管理 器 


lock.acquire() 
value.value += 1 
lock.release() 


既然 Lock 没有 给 予 我 们 所 追求 的 细 粒 度 , 它 提供 的 基础 锁 浪 费 了 一 点 不 必要 的 时 
间 。 我 们 能 够 如 例 9-44 中 的 那样 用 一 个 RawValue 取代 Value， 并 取得 一 个 递增 
的 速度 提升 。 如 果 你 有 兴趣 看 看 在 这 个 变化 背后 的 字 节 码 ， 那 么 就 读 一 下 Eli 
Bendersky 关于 这 个 主题 的 博客 帖子 。 
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例 9-44 展示 最 快 的 RawValue 和 Lock 方法 的 控制 台 输 出 


# RawValue has no lock on it 

$ python ex2 lock rawvalue.py 
Expecting to see a count of 4000 
We have counted to 4000 


$ Python -m timeit -S "import ex2 lock rawvalue" "ex2 lock rawvalue.run workers()" 


100 loops, best of 3: 12.6 msec per loop 


为 了 使 用 RawValue， 只 要 如 例 9-45 中 所 示 的 那样 和 Value 交换 就 可 以 了 。 


例 9-45 使 用 RawValue 整数 的 例子 


def run workers () : 


lock = multiprocessing.Lock() 
value = multiprocessing.RawValue('i', 0) 
for process nbr in range (NBR PROCESSES): 
p = multiprocessing.Process (target=work, 


args=(value, MAX COUNT PER PROCESS, lock)) 


p.start () 
processes .append (p) 

















如 果 我 们 要 共享 一 个 基础 对 象 数 组 ， 我 们 也 可 以 使 用 RawArray 来 代替 一 个 


multiprocessing.Array,。 





随 着 在 多 进程 间 共 享 一 个 标记 和 同步 数据 共享 , 我 们 已 经 看 到 了 各 种 不 同 的 方式 来 
在 一 台 单独 的 机 器 上 的 多 进程 间 划 分 工作 。 然而， 请 记 住 数 据 共 


疼 的 问题 一 一 设法 尽 可 能 的 避 开 它 。 让 一 台 机 器 处 理 共 享 状态 的 所 有 边 边 角 角 的 情 








t 享 能 够 产生 令 人 头 























况 是 困难 的 , 当 你 第 一 次 被 迫 调试 多 进程 交互 时 , 你 就 会 意识 到 为 什么 为 人 所 接受 














的 智慧 就 是 尽量 避免 这 种 情况 。 














确实 要 考虑 写 出 运行 慢 一 点 但 是 更 容易 被 你 的 团队 所 到 








E 解 的 代码 。 使 用 一 个 类 


似 Redis 的 外 部 工具 来 共享 状态 会 生成 一 个 在 运行 时 能 够 被 非 开发 者 所 检查 的 





系统 




















这 是 一 种 强大 的 方式 来 让 你 的 团队 监控 在 你 的 并 


条 系 


统 中 所 发 生 的 事情 。 





一 定 要 记 住 调试 过 性 能 的 Python 代码 更 不 可 能 被 你 团队 中 的 更 初级 的 员工 所 理 
解 一 一 他 们 或 害怕 它 ， 或 会 破坏 它 。 避 免 这 个 问题 〈 接 受 在 速度 上 的 牺牲 ) 来 保 


持 团 队 的 高 效率 。 


9.8 小 结 


在 本 章 中 我 们 已 经 涉及 了 很 多 。 首 先 我 们 看 了 两 个 令 人 窒 迫 的 





具有 可 预料 的 复杂 性 ， 而 另 一 个 具有 不 可 预料 的 复杂 








生 。 当 我 














并 行 问 题 , 其 中 一 个 
门 在 第 10 章 讨论 集 
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群 时 ， 我 们 会 再 次 短暂 地 在 多 台 机 器 上 使 用 这 些 例子 。 


接 下 来 , 我 们 看 到 在 multiprocessing 中 对 Queue 的 支持 和 它 的 开销 。 一 般 情 
况 下 , 我 们 推荐 使 用 一 个 外 部 的 队列 库 ， 这 样 队 列 的 状态 更 加 透明 。 你 应 该 倾向 于 
使 用 一 个 容易 阅读 的 工作 格式 而 不 是 序列 化 (pickled) 的 数据 ， 这 样 就 容易 调试 。 


进程 间 通 信 (IPC) 的 讨论 应 该 让 你 对 有 效 使 用 IPC 的 难度 印象 深刻 ， 仅 仅 使 用 一 
个 天 真 的 并 行 方式 (没有 IPC) 可 能 是 有 意义 的 。 购 买 一 台 具 有 更 多 核 的 更 快 的 计 














算 机 可 能 比 设 法 使 用 IPC 来 开发 一 台 现 有 的 机 器 要 现实 得 多 。 
不 做 拷贝 的 并 行 共享 numpy 矩阵 仅仅 对 于 一 小 气 问 题 是 重要 的 , 但 是 当 


























它 重 要 时 ， 








它 就 真 的 重要 。 确保 你 真 的 没有 在 进程 间 拷 贝 数 据 需要 花费 额外 的 几 行 代码 和 一 些 





安全 检查 。 





最 后 , 我 们 看 了 使 用 文件 和 内 存 锁 来 避免 损坏 数据 一 一 这 是 细微 和 难以 跟踪 的 错误 





的 来 源 ， 本 节 向 你 展示 了 一 些 鲁 棒 和 轻 量 级 的 解决 方案 。 
在 下 一 章 中 我 们 会 看 看 使 用 Python 的 集群 。 使 用 集群 ， 我 们 可 以 超越 和 








机 的 并 行 











性 并 利用 一 组 机 器 的 CPU。 这 引入 了 一 个 调试 痛苦 的 新 世界 一 一 不 仅仅 是 你 的 代 























码 可 能 有 错 ， 而 且 其 他 机 器 也 可 能 有 错误 (或 是 错误 配置 ， 或 是 硬件 失 








效 )。 我 们 











会 展示 如 何 来 使 用 并 行 的 Python 模块 并 行 化 pi 的 估算 演示 ， 并 展示 如 何 使 用 一 个 





IPython 集群 来 运行 IPython 内 部 的 研究 代码 。 
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第 10 章 





集群 和 工作 队列 


读 完 本 章 之 后 你 将 能 够 回答 下 列 问题 


为 什么 集群 是 有 用 的 ? 

集群 的 代价 是 什么 ? 

我 该 如 何 把 一 个 多 进程 的 解决 方案 转换 成 一 个 集 姑 
IPython 集群 如 何 工 作 ? 

NSQ 是 怎样 有 助 于 创建 鲁 棒 的 生产 系统 ? 


























解决 方案 ? 








一 个 集群 通常 被 视 作 一 组 共同 工作 来 解决 公共 问题 的 计算 机 集合 。 从 外 部 看 来 , 它 














可 能 就 是 一 个 更 大 的 独立 系统 。 


化 处 到 
据 中 心 通过 使 用 商业 PC 集群 的 实践 ， 得 到 了 一 个 巨大 的 提升 ， 尤 其 是 针对 运 
行 MapReduce 的 任务 。 在 天 平 的 另 一 端 ，TOP500 项 目 每 年 对 最 强大 的 计算 机 
系统 进行 排名 ， 这 些 系统 都 具有 典型 的 集群 化 的 设计 ， 并 且 最 快 的 机 器 都 使 用 
了 Linux。 


J 




















在 20 世纪 90 年 代 ， 在 一 个 本 地 局 域 网 上 使 用 一 组 商业 PC 的 集群 来 进行 集群 
的 概念 变 得 流行 起 来 一 一 被 称 作 Beowulf 集群 。 后 来 Google 在 自己 的 数 




















亚马逊 Web 服务 (AWS) 通常 既 被 用 来 























改 云 中 的 工程 产品 集群 ， 又 被 用 来 为 短期 














的 项 目 比 如 机 器 学 习 来 按 需 构建 集群 。 使 用 AWS, 你 能 够 租用 多 台 八 核 Intel Xeon， 


60GB 的 RAM 的 机 器 ， 每 小 时 单 台 1.68 美元 ， 还 有 244GB RAM 的 机 器 以 及 具有 
































GPU 的 机 器 。 如 果 你 想 要 为 计算 密集 型 的 任务 探索 AWS 的 临时 集群 ， 可 以 看 看 第 


1 


0.6.2 节 和 StarCluster 包 。 
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不 同 的 计算 但 








一 些 公共 的 场景 。 








10 
集 和 

















F 务 需要 不 同 配置 、 不 同 大 小 、 不 同 容量 的 集群 。 在 本 章 中 我 们 会 定义 

















在 你 转移 到 集群 化 的 解决 方案 时 ， 确 保 你 已 经 


度量 了 你 的 系统 ， 因 此 你 理解 瓶颈 在 哪里 。 


探索 了 类 似 Cython 的 编译 器 解决 方案 。 
在 一 台 单独 的 机 器 上 利用 了 多 核 〈 可 能 一 台大 型 机 器 上 有 很 多 核 ) 。 


探索 了 使 用 更 少 RAM 的 技术 。 


让 你 的 系统 保持 运行 在 一 台 机 器 上 (即使 一 台 机 器 ”其 实 是 强大 的 具有 许多 RAM 
和 CPU 的 计算 机 ) 将 会 让 你 的 生活 更 轻松 些 。 如 果 你 真 的 需要 许多 CPU 或 者 并 行 
处 理 来 自 磁盘 上 的 数据 的 能 力 , 抑或 是 具有 类 似 高 弹性 和 高 响应 速度 之 类 的 产品 需 
求 ， 那 么 请 转移 到 一 个 集群 上 去 。 



































.1 集群 的 益处 








最 明 











显 的 益处 就 是 你 能 够 轻易 地 扩展 计算 需求 一 一 如 果 你 需要 处 理 更 多 的 数 








据 或 者 得 到 更 快 的 答案 ， 你 只 要 增加 更 多 的 机 器 (或 “节点 ”)。 





通过 增加 机 器 ， 你 也 能 提高 可 靠 性 。 每 个 机 器 组 件 有 一 定 的 失效 概率 ， 而 设计 良好 








的 话 ， 一 定数 量 的 组 件 失 效 就 不 会 让 整个 集群 停止 工作 。 
集群 也 被 用 来 创建 动态 扩展 的 系统 ,一 种 常见 的 使 用 场景 就 是 集群 化 一 组 服务 器 来 











处 理 web 请 求 或 相关 联 的 数据 (例如 , 缩放 用 户 照 片 、 视 频 转 码 , 或 是 语音 转录 )， 
并 且 在 一 天 中 的 某 些 时 段 里 请 求 增加 时 ， 就 激活 更 多 的 服务 器 。 


只 要 机 器 激活 时 间 足 够 快 从 而 赶 上 处 理 需 求 变化 的 速度 , 动态 扩容 就 是 处 理 非 均匀 
的 应 用 模式 的 一 种 非常 节约 成 本 的 方式 。 


化 的 更 细微 的 收益 就 是 集群 能 够 按 地 理 来 分 割 ， 但 还 是 受到 中 心 化 的 控制 。 
如 果 一 个 地 理 区 域 遭 受 断 电 〈 例 如 ， 洪 水 或 电力 损失 )， 其 他 的 集群 还 能 继续 工 


集 君 





作 ， 


也 许 更 多 的 处 到 

















单元 被 添加 进来 处 理 请 求 。 集 群 也 允许 你 运行 在 异 构 的 软件 





环境 上 (例如 ,不 同 版 本 的 操作 系统 和 处 理 软 件 )， 这 或 许 能 够 提高 整体 系统 的 
鲁 棒 性 一 一 然而 要 注意 那 一 定 是 一 个 专家 级 别 的 主题 ! 
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10.2 集群 的 缺陷 


转移 到 集群 化 的 解决 方案 需要 转变 思想 。 从 串 行 转 到 我 们 在 第 9 章 中 所 介绍 过 
的 并 行 代码 ， 是 一 个 需要 转变 思想 的 演进 。 突 然 间 ， 你 不 得 不 考虑 当 你 有 超过 
一 台 机 器 时 ， 会 发 生 什 么 一 一 在 机 器 间 会 有 延 退 ， 你 需要 知道 你 的 其 他 机 器 是 
和 否 在 工作 ， 你 还 需要 让 所 有 机 器 运行 相同 版 本 的 软件 。 系 统管 理 可 能 是 你 最 大 
的 挑战 。 


此 外 , 你 通常 不 得 不 努力 思考 你 要 实现 的 算法 以 及 一 旦 你 拥有 了 所 有 这 些 可 能 需要 
保持 同步 的 额外 的 转移 部 分 , 将 会 发 生 什么 事 。 这 个 额外 计划 可 能 施加 了 一 个 沉重 
的 智商 税 ， 可 能 让 你 从 核心 任务 中 分 心 走 岔 , 一 旦 系统 成 长 得 足够 庞大 ,你 可 能 需 
要 一 个 专职 的 工程 师 来 加 入 你 的 团队 。 


备 忘 

我 们 尝试 集中 于 有 效 使 用 一 台 机 器 的 理由 就 是 因为 我 们 都 相信 如 果 
你 只 处 理 一 台 计 算 机 而 不 是 一 组 计算 机 ， 那 么 生活 就 会 更 轻松 (尽管 
我 们 承认 玩弄 一 个 集群 会 更 有 趣 一 一 直到 它 失效 为 止 )。 如 果 你 能 够 
重 直 扩展 (通过 购买 更 多 的 RAM 或 者 CPU )， 那 么 就 值得 调查 这 种 
方法 对 集群 的 支持 。 当 然 ， 你 的 处 理 需 求 可 能 会 超过 垂直 扩展 所 能 做 
的 一 切 ， 或 者 一 个 集群 的 鲁 棒 性 可 能 比 一 台 单独 的 机 器 更 加 重要 。 然 
而 ， 如 果 你 是 独自 一 个 人 工作 于 这 个 任务 ， 也 要 记 住 运行 一 个 集群 会 
消耗 你 的 一 些 时 间 。 



































当 设 计 一 个 集群 化 的 解决 方案 时 , 你 需要 记 住 每 台 机 器 的 配置 可 能 是 不 相同 的 (每 
台 机 器 会 有 不 同 的 负载 和 不 同 的 局 部 数据 )。 你 该 如 何 来 把 所 有 正确 的 数据 放 到 处 
理 你 任务 的 机 器 上 来 呢 ? 移动 任务 和 数据 涉及 的 延 玉 会 成 为 问题 吗 ? 你 的 任务 需 
要 和 其 他 任务 相互 通信 部 分 结果 吗 ? 当 几 个 任务 正在 运行 时 , 如 果 一 个 进程 失效 了 
或 者 一 台 机 器 挂 了 或 者 一 些 硬件 擦 除了 自己 , 那么 会 发 生 什 么 呢 ? 如 果 你 不 去 考虑 
这 些 问题 ， 失 败 就 会 随 之 而 来 。 


你 也 应 该 考虑 到 失效 是 能 够 被 接受 的 。 例 如 ， 当 你 运行 一 个 基于 内 容 的 Web 服务 
时 ， 你 可 能 不 需要 99.999% 的 可 靠 性 一 一 如 果 一 项 任务 偶然 失效 了 (例如, 一 张 图 
片 没有 足够 快速 地 被 缩放 ) ， 并 且 需 要 用 户 来 重 载 页 面 ， 那 是 每 个 人 都 已 经 习 以 为 
常 的 。 那 可 能 不 是 你 想 要 给 予 用 户 的 解决 方案 , 但 是 接受 一 点 失效 常常 降低 了 你 的 
边际 工程 和 管理 成 本 , 那 是 值得 的 。 另 一 方面 , 如 果 一 个 高 频 交 易 系 统 经 历 了 失效 ， 
那么 为 糟糕 的 股票 市 场 交易 所 付出 的 代价 可 能 是 相当 巨大 的 | 
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维护 一 个 固定 的 基础 设施 可 能 变 得 代价 高 昂 。 采 购 机 器 是 相对 廉价 的 ， 但 是 它们 
具有 一 个 糟糕 的 变 坏 的 趋势 一 一 自动 软件 更 新 会 有 小 故障 ， 网 卡 会 失效 ， 硬 盘 会 
有 写 错误 ， 电 力 供给 可 能 输出 损坏 数据 的 尖峰 能 量 ， 宇 宙 射 线 可 能 反 转 RAM 模 
块 的 一 个 比特 位 。 你 拥有 越 多 的 计算 机 ， 就 会 损失 越 多 的 时 间 来 处 理 这 些 问 题 。 
你 迟早 会 想 要 增加 一 名 系统 工程 师 来 处 理 这 些 问题 ， 因 此 又 增加 了 100000 美元 
的 预算 。 使 用 一 个 基于 云 的 集群 能 够 缓解 许多 这 些 问 题 ( 它 花费 更 多 钱 ， 但 是 你 
不 必 处 理 硬件 维护 ) ， 而 且 一 些 云 供 应 商 也 为 廉价 而 临时 的 计算 资源 提供 了 一 个 
即时 付费 的 市 场 。 


伴随 着 集群 随时 间 有 机 成 长 而 带 来 的 潜在 问题 就 是 如 果 一 切 都 关 掉 了 , 可 能 没有 人 
对 怎样 安全 地 重启 集群 而 制定 文档 。 如 果 你 没有 一 个 文档 化 的 重启 计划 , 那 你 就 应 
该 设想 你 将 不 得 不 在 可 能 是 最 坏 的 时 候 来 写 文档 (你 的 其 中 一 个 作者 已 经 卷 人 到 在 
圣诞 夜 调试 这 种 类 型 的 问题 一 一 这 不 是 你 想 要 的 圣诞 礼物 !)。 在 这 点 上 , 你 也 会 了 
解 到 让 一 个 系统 的 每 个 组 件 开始 加 速 可 能 要 花费 多 久 一 一 也 许 集 群 的 每 个 组 件 要 
花费 几 分 钟 来 启动 并 开始 处 理 任务 ， 所 以 如 果 你 有 10 个 依次 运行 的 组 件 ， 可 能 

花费 一 小 时 来 让 整个 系统 完成 冷 启动 。 结 果 就 是 你 可 能 有 一 个 小 时 之 久 的 堆积 交 
据 。 那 么 你 有 所 需 的 容量 来 及 时 处 理 这 些 堆积 数据 吗 ? 


懈 人 总 的 行为 可 能 是 引起 代价 高 郧 的 错误 的 原因 , 而 复杂 且 难 以 预料 的 行为 可 能 导致 
代价 高 昂 的 不 可 预料 的 结果 。 让 我 们 看 看 两 起 引 人 注 目的 集群 失效 ， 并 看 看 我 们 能 
够 学 到 的 教训 。 


10.2.1 糟糕 的 集群 升级 策略 造成 华尔街 损失 4.62 亿美 元 
在 2012 年 ， 高 频 交易 公司 骑士 资本 在 集群 中 做 软件 升级 期 间 引入 了 一 个 错误 ， 损 
失 了 4.62 亿美 元 。 软 件 做 出 了 超出 客户 所 请 求 的 股票 买卖 。 


在 交易 软件 中 , 一 个 更 老 的 标记 转 用 于 新 函数 。 升 级 已 进行 到 了 8 台 活 跃 机 器 中 的 
7 台 , 但 是 第 8 台 机 器 使 用 了 更 旧 的 代码 来 处 理 标记 ， 这 导致 了 所 做 出 的 错误 的 交 
易 。 安 全 和 交易 委员 会 (SEC) 注意 到 骑士 资本 没有 让 其 他 技术 人 员 来 检查 升级 ， 
并 且 没 有 流程 来 检查 已 经 存在 的 升级 。 

根本 的 错误 看 起 来 有 两 个 原因 。 首 先 ， 软 件 开 发 过 程 没有 移 除 一 个 废弃 的 功能 ， 所 
以 僵尸 代码 遗留 了 下 来 。 第 二 就 是 没有 人 工 检查 过 程 来 确认 升级 成 功 完成 了 。 
技术 债 最 终 增添 了 不 得 不 付出 的 代价 一 一 倾向 于 在 没有 压力 时 花 时 间 来 解决 技术 
债 。 在 构建 和 重 构 代码 时 ,总 是 使 用 单元 测试 。 缺乏 一 个 手写 的 检查 列表 在 系统 升 
级 期 间 去 核对 一 遍 , 又 缺乏 第 二 双眼 睛 来 检查 , 可 能 就 会 让 你 付出 代价 高 昂 的 失败 。 
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飞机 驾驶 员 有 理由 必须 要 过 一 遍 下 降 检查 列表 ， 这 意味 着 没有 人 会 错过 重要 的 步 





了 又， 无 论 他 们 以 前 可 能 已 经 做 了 多 少 次 。 
10.2.2 ”Skype 的 24 小 时 全 球 中 断 





























Skype 在 2010 年 遭受 了 一 次 24 小 时 全 球 范围 的 失效 。 在 幕后 ，Skype 由 点 对 点 网 
络 所 支持 。 部 分 系统 发 生 的 过 载 (用 来 处 理 线 下 的 即时 消息 ) 造成 了 Windows 客 

















了 。 总 体 上 ， 大 约 40% 的 活跃 客户 端 垮 掉 了 ， 包 括 
点 对 网 络 上 的 路 由 数据 起 关键 作用 。 


随 着 25% 的 路 由 断 线 ( 它 恢复 了 , 但 是 缓慢 地 恢复 )， 








户 端的 响应 延迟 ， 一 些 版 本 的 Windows 客户 端 没 有 合适 地 处 理 延 迟 的 响应 就 垮 掉 





25% 的 公共 超级 节点 。 超 级 节 


整体 网 络 处 于 严重 的 压力 下 。 


崩 演 的 Windows 客户 节点 也 正在 重启 中 ， 并 且 演 试 重新 加 入 网 络 ， 在 已 经 过 载 的 
系统 上 增加 了 新 的 大 量 的 流量 。 超 级 节点 在 经 受 太 多 的 负载 时 ， 有 回 退步 又 ,所 以 


























它们 开始 关闭 来 对 流量 的 波浪 做 出 反应 。 























Skype 变 得 24 小 时 严重 不 可 用 。 恢 复 步骤 涉及 首先 要 设置 几 百 台 新 的 万 兆 超级 节 
点 ， 它 们 被 配置 成 用 以 处 理 增加 的 流量 ， 接 着 用 几 千 台 更 多 的 新 超级 节点 来 跟 进 。 


























在 接 下 来 的 几 天 内 ， 网 络 恢复 了 。 
事故 造成 了 Skype 的 很 多 窗 境 ， 显 然 ， 在 几 天 紧张 的 




















日 子 里 ， 他 们 的 精力 也 切换 到 








限制 破坏 中 去 了 。 客户 被 迫 寻 找 语音 电话 的 可 替代 方案 , 可 能 对 竞争 者 来 说 是 一 个 


市 场 恩赐 。 











考虑 到 网 络 的 复杂 性 以 及 发 生 失 效 的 升级 ， 这 个 失效 可 能 是 难以 预测 和 做 出 计划 





来 应 对 的 。 网 络 上 的 所 有 节点 不 会 失效 的 理由 是 因为 不 同 的 软件 版 本 和 不 同 的 平 











台 一 一 异 构 网 络 比 同 构 网 络 更 具有 可 靠 性 的 收益 。 


10.3 通用 的 集群 设计 


通常 由 合理 等 价 的 机 器 所 组 成 的 一 个 局 部 的 临时 集 姑 





























常 慢 ， 所 以 相 比 一 个 新 的 高 规格 的 机 器 ,它们 无 法 如 








来 开始 。 你 可 能 想 知 道 你 是 否 








能 给 一 个 临时 网 络 增加 旧 机 器 ， 但 是 更 老 的 CPU 常常 消耗 很 多 电力 而 且 运 行 得 非 


你 所 期 望 的 那样 做 出 贡献 。 一 





个 在 公司 的 集群 需要 有 能 够 维护 的 人 。 一 个 连接 亚马逊 EC2 或 者 微软 Azure 或 者 
一 个 学 术 机 构 的 集群 解除 了 对 供应 者 团队 的 硬件 支持 。 

如 果 你 有 理解 良好 的 处 理 需求 , 设计 一 个 定制 化 的 集群 可 能 是 有 意义 的 一 一 也 许 是 
一 个 使 用 无 限 带 宽 的 高 速 互 连 取代 千 兆 以 太 网 ， 或 者 是 一 个 使 用 特定 配置 的 RAID 
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驱动 来 支持 你 的 读 、 写 或 弹性 化 需求 。 你 可 能 想 要 在 一 些 机 器 上 混合 CPU 和 GPU， 
或 只 是 默认 为 CPU。 


你 可 能 想 要 一 个 大 规模 去 中 心 化 的 处 理 集群 , 就 像 由 类 似 于 通过 伯克利 网 络 计算 系 
统 开放 基础 设施 (BOINC) 所 开发 的 SETI@home 和 Folding@home 之 类 的 项 目 所 
使 用 的 那样 一 一 它们 共享 了 中 心 化 的 协调 系统 , 但 是 计算 节点 以 即时 的 方式 加 入 和 
离开 项 目 。 


在 硬件 设计 之 上 ， 你 能 够 运行 不 同 的 软件 架构 ， 工 作 队 列 最 通用 而 且 最 容易 理解 。 
任务 常常 被 放 人 一 个 队列 并 由 一 个 处 理 者 所 消费 。 处 理 结果 可 能 进入 另 一 个 队列 来 
做 进一步 处 理 ， 或 者 用 来 作为 最 终 的 结果 〈 例 如 ， 被 添加 进 一 个 数据 库 )。 消 息 传 
递 系统 稍 有 不 同一 一 消息 被 放 和 一 个 消息 总 线 , 接着 由 其 他 机 器 所 消费 。 消 息 可 能 
超时 而 得 以 删除 , 并 且 可 能 由 多 人 台 机 器 所 消费 。 一 个 更 复杂 的 系统 就 是 当 进 程 使 用 
进程 间 通 信和 与 其 他 进程 交流 的 时 候 一 一 这 可 以 被 考虑 成 一 个 专家 级 别 的 配置 , 因为 
有 许多 险 途 来 把 它 搞 坏 ， 导 致 你 丧失 了 理智 。 只 有 当 你 真正 知道 需要 它 时 ， 才 走 上 
进程 间 通 信 (IPC) 的 道路 。 


10.4 怎样 启动 一 个 集群 化 的 解决 方案 


启动 一 个 集群 化 系统 的 最 简单 的 方式 就 是 从 一 台 既 运行 作业 服务 器 又 运行 作业 处 
理 器 〈 和 CPU 是 一 对 一 的 关系 ) 的 机 器 开始 。 如 果 你 的 任务 是 CPU 密集 型 的 ， 每 
一 个 CPU 跑 一 个 作业 处 理 器 ;如 果 你 的 任务 是 IO 密集 型 的 ， 每 一 个 CPU 跑 几 个 
作业 处 理 器 。 如 果 你 的 任务 是 RAM 密集 型 的 ， 请 小 心 不 要 耗 尽 RAM。 让 你 的 单 
机 解决 方案 在 一 个 处 理 器 上 工作 正常 ,接着 再 增加 更 多 。 让 你 的 代码 以 不 可 预料 的 
方式 失效 (例如 ， 在 你 代码 中 做 1/0， 对 你 的 工作 者 使 用 kill -9 <pid>， 从 插 
座 上 氢 掉 电源 ， 这 样 让 整个 机 器 挂 掉 ) 来 检查 你 的 系统 是 否 健壮 。 


显然 ， 你 想 要 做 比 这 更 重量 级 的 测试 一 一 一 个 充满 了 编码 错误 和 人 工 异 常 的 单元 
测试 集 就 好 。Ian 喜欢 抛 出 非 预期 的 事件 ， 就 像 让 一 个 处 理 器 运行 一 个 作业 集 ， 而 
一 个 外 部 进程 正 系统 化 地 杀 掉 重要 的 进程 并 且 通 过 任何 你 所 使 用 的 监控 进程 来 确 
认 所 有 这 些 进程 都 干净 地 重启 了 。 


一 旦 你 有 了 一 个 运行 的 作业 处 理 器 ， 就 增加 第 二 个 。 要 检查 你 没有 使 用 太 多 的 
RAM。 你 是 否 以 从 前 两 倍 的 速度 来 处 理 任务 ? 
现在 引入 了 第 二 台 机 器 , 仅仅 只 有 一 个 作业 处理 器 跑 在 新 机 器 上 , 在 协作 机 器 上 没 
有 作业 处 理 器 。 它 处 理 作业 的 速度 是 否 与 协作 机 器 有 处 理 器 时 一 样 快 ? 如 果 不 是 ， 
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为 什么 ? 是 延迟 的 问题 吗 ? 你 做 了 不 同 的 配置 吗 ? 也 许 你 有 不 同 的 机 器 硬件 , 类 似 
于 CPUs、RAM 和 缓存 大 小 ? 


现在 加 入 另外 9 台 计 算 机 来 测试 看 看 你 是 否 以 比 从 前 快 10 倍 的 速度 来 处 理 任务 。 
如 果 不 是 ， 那 么 为 什么 呢 ? 是 否 发 生 了 网 络 冲突 减 慢 了 你 的 整体 处 理 速 率 ? 


当 机 器 启动 时 ， 为 了 可 靠 地 启动 集群 组 件 ， 我 们 倾向 于 使 用 cron 任务 ，Circu 
或 supervisord, 或 者 有 时 使 用 Upstart (正在 被 systemdq 所 代替 )。Circu 
比 supervisord 更 新 , 但 两 者 都 是 基于 Python 的 。cron 陈旧 , 但 是 如 果 你 只 是 
启动 一 个 类 似 于 能 启动 所 需 子 进程 的 监控 进程 那样 的 脚本 的 话 ， 它 是 非常 可 靠 的 。 


一 旦 你 有 了 一 个 可 靠 的 集群 ， 你 可 能 就 想 要 引入 一 个 类 似 Netflix 的 ChaosMonkey 
那样 的 随机 杀手 工具 来 故意 杀 掉 你 的 部 分 系统 来 测试 它们 的 弹性 。 你 的 进程 和 硬件 
最 终 会 挂 掉 ， 但 你 不 需要 在 经 历 痛苦 之 后 才 知 道 ， 你 至 少 可 以 在 遭受 你 所 预料 会 发 
生 的 错误 中 存活 下 来 。 


10.5 ”使 用 集群 时 避免 痛苦 的 方法 
Ian 遭受 过 的 一 个 特别 痛苦 的 经 历 是 一 个 集群 化 系统 中 的 一 系列 查询 陷 人 了 停顿 状 
态 。 最 近 的 查询 没有 被 消费 ,所 以 它们 被 堆积 起 来 了 。 一 些 机 器 跑 完 了 内 存 ， 所 以 
它们 的 进程 挂 掉 了 。 之 前 的 查询 正在 被 处 理 , 但 是 没有 把 它们 的 结果 传递 给 下 一 个 
队列 ， 所 以 它们 崩 演 了 。 最 后 ,第 一 个 队列 填充 满 了 ,但 没有 被 消费 ， 所 以 它 崩 演 
掉 了 。 然后 我 们 为 最 终 丢 失 了 来 自 提供 者 的 数据 而 付出 了 代价 。 你 必须 拟定 出 一 些 
注意 事项 来 考虑 你 的 集群 以 各 种 各 样 的 方式 挂 掉 (不 是 如 果 它 挂 掉 , 而 是 当 它 挂 掉 
的 时 候 ) 以 及 会 发 生 什么 结果 。 你 会 丢失 数据 吗 这 是 个 问题 吗 ? ) ? 你 会 有 一 个 
巨大 的 难以 处 理 的 积压 任务 吗 ? 


有 一 个 容易 调试 的 系统 可 能 胜 过 有 一 个 更 快 的 系统 。 工程 时 间 以 及 失效 时 间 的 代价 
可 能 是 你 最 大 的 开销 (如 果 你 正 运行 一 个 导弹 防御 程序 ,这 就 不 恰当 ， 但 是 对 于 一 
个 创业 公司 来 说 是 恰当 的 )。 当 传递 消息 时 ， 与 其 使 用 一 个 低级 的 压缩 的 二 进 制 协 
议 来 削减 一 些 字 节 ， 不 如 使 用 人 类 可 读 的 JSON 文本 。 传 递 和 解码 消息 的 确 增加 了 
开销 , 但 是 当 你 剩 下 一 个 特别 的 数据 库 时 ， 当 一 台 核心 计算 机 着 火 后 ， 你 就 会 庆幸 
当 你 努力 把 系统 恢复 上 线 时 ， 你 能 够 迅速 读 取出 重要 的 信息 。 
确保 花费 少量 时 间 和 廉价 的 金钱 来 给 系统 部 署 升级 一 -无论 是 操作 系统 升级 还 是 
你 的 软件 新 版 本 。 每 当 集群 中 有 任何 改变 时 ， 如 果 它 处 于 一 个 反复 无 常 的 状态 , 系 
统 就 会 以 一 种 古怪 的 方式 来 响应 ， 你 就 会 时 风险 。 确 保 你 使 用 一 个 部 署 系统 ,类 似 
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于 Fabric、Salt、Chef 或 Puppet， 或 者 一 个 类 似 于 Debian 的 .deb ，RedHat 的 rmp 
或 者 类 似 于 一 个 亚马逊 机 器 镜像 。 能 够 健壮 地 部 署 一 个 升级 整个 集群 的 更 新 (在任 
何 发 现 的 问题 上 有 报道 ) 在 困难 期 间 大 大 减轻 了 压力 。 


正面 报告 是 有 用 的 。 每 天 发 一 封 邮件 给 某 些 人 详 述 集群 的 性 能 。 如 果 邮 件 没有 找到 ， 
那 就 是 一 个 有 用 的 线索 来 告知 发 生 了 一 些 事情 。 你 可 能 也 想 要 其 他 的 早期 告警 系统 
来 更 快 地 通知 你 , 在 这 里 ，Pingdom 和 ServerDensity 尤其 有 用 。 一 个 啊 应 缺失 事件 
的 “死人 开关 ”是 另 一 个 有 用 的 备份 例如， 死人 的 开关 ) 。 


把 集群 的 健康 状况 报告 给 团队 是 很 有 用 的 。 这 可 能 是 一 个 在 web 应 用 程序 内 部 
的 管理 页 面 ， 或 者 是 一 个 独立 的 报告 。Ganglia 在 这 方面 很 给 力 。Ian 看 到 了 一 
个 在 办 公 室 中 的 运行 于 一 台 多 余 PC 上 的 类 似 于 星际 迷航 中 的 LCARS 的 接口 ， 
当 检 测 到 问题 时 播 出 “红色 警报 ”的 声音 一 一 这 对 引起 整个 办 公 室 的 注意 特别 
有 效 。 我 们 已 经 看 到 了 类 似 于 老式 风格 的 锅炉 压力 测量 计 的 Arduinos 驱动 模拟 
设备 ( 当 指 针 移 动 时 ， 发 出 美妙 的 声音 !) 显示 出 系统 的 负载 。 这 种 类 型 的 报告 
是 重要 的 ， 这 样 每 个 人 就 理解 了 “正常 ”和 “这 可 能 会 破坏 我 们 周 五 晚上 的 生 
活 ” 之 间 的 区 别 。 


10.6 三 个 集群 化 解决 方案 


在 下 面 几 节 中 ， 我 们 介绍 Parallel Python、IPython Parallel 和 NSQ。 


















































































































































Parallel Python 有 一 个 很 熟悉 multiprocessing 的 接口 ,把 你 的 multiprocessing 
解决 方案 从 一 台 单 独 的 多 核 机 器 升级 到 多 机 器 的 设置 就 是 个 几 分 钟 内 的 活 。 
Parallel Python 几乎 没有 依赖 性 , 容易 在 一 个 本 地 集群 中 为 研究 工作 做 配置 。 它 不 
是 很 强大 还 缺少 通信 机 制 ， 但 是 对 于 发 送 令 人 为 难 的 并 行 任务 来 给 一 个 小 规模 的 
局 部 集群 来 说 ， 是 很 容易 使 用 的 。 


IPython 集群 是 很 容易 在 一 台 多 核 机 器 上 使 用 的 。 既 然 许 多 研究 者 使 用 了 Python 作为 
它们 的 shell， 使 用 它 来 做 并 行 任务 控制 也 是 很 自然 的 。 构 建 一 个 集群 需要 一 点 系 
统管 理 知识 ， 而 且 有 一 些 依赖 性 (例如 ZeroMQ)， 所 以 设置 起 来 比 Parallel Python 
稍微 复杂 一 点 。IPython Parallel 的 一 个 巨大 胜利 就 是 你 能 够 如 本 地 集群 一 样 来 使 用 
远 端 集群 这 样 一 个 事实 (例如 ， 使 用 亚马逊 AWS 和 EC2)。 


NSQ 是 一 个 可 随时 投入 生产 的 队列 系统 ， 在 类 似 Bitly 那样 的 公司 中 所 使 用 。 它 有 
持久 性 《所 以 如 果 机 器 挂 了 ， 任 务 就 能 够 被 其 他 的 机 器 重新 捡 起 ) 和 强大 的 可 扩展 
机 制 。 它 具有 更 强大 的 能 力 ， 对 系统 管理 和 工程 技巧 的 需求 更 大 一 些 。 
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10.6.1 为 简单 的 本 地 集群 使 用 Parallel Python 模块 
Parallel Python (pp) 模 块 让 本 地 的 工作 者 集群 能 够 使 用 一 个 类 似 于 multiprocessing 
的 接口 。 显 而 易 见 ， 那 意味 着 把 代码 从 使 用 map 的 multiprocessing 转变 为 





Parallel Python 是 很 方便 的 。 








你 能 够 轻易 地 使 用 一 台 机 器 或 一 个 临时 网 络 来 运行 代 


码 。 你 能 够 使 用 pip install PP 来 安装 它 。 


我 们 能 够 通过 Parallel Python 来 使 用 二 全 下 方法 ， 就 如 我 们 在 9.3 节 中 使 用 本 地 
机 器 所 做 的 那样 一 一 注意 在 例 10-1 中 , 这 个 接口 与 更 早 multiprocessing 的 例 
子 是 多 么 相似 啊 。 我 们 在 nbr_trials_per_process 中 创建 了 一 个 工作 列表 ， 








变 空 闸 时， 它们 会 被 消费 。 











并 且 把 这 些 任 务 传递 给 4 个 本 地 进程 。 我 们 能 够 创建 所 需 数量 的 工作 项 ， 当 工作 者 


例 10-1 ”Parallel Python 的 本 地 例子 


import pp 


NBR_ ESTIMATES = 1e8 


def calculate pi (nbr estimates) : 
steps = xrange (int (nbr estimates)) 
nor trials. Fi unit :CieLes 0 





for step in steps: 


X = random.uniform(0, 1) 

y = random.uniform(0, 1) 

is"in nit cirele se x ty y= 10 

nbr trials in unit circle += is in unit circle 





return nbr trials in unit circle 





于 二 name == " main 


nm 。 





NBR_PROCESSES = 4 


job server = pp.Server (ncpus=NBR PROCESSES) 
print "Starting pp with", job server.get ncpus(), "workers" 
nbr trials per process = [NBR ESTIMATES] * NBR PROCESSES 


jobs = [] 


for input args in nbr trials per process: 
job = job server.submit (calculate pi, (input args,), (), ("random",)) 


jobs .append (job) 


# each job blocks until the result is ready 

nbr in unit circles = [job() for job in jobs] 

print "Amount of work:", sum(nbr trials per process) 

print sum(nbr in unit circles) * 4 / NBR ESTIMATES / NBR PROCESSES 


在 例 10-2 中 ,我 们 拓展 了 例子 一 一 这 次 我 们 需要 1024 个 任务 做 100000000 次 估算 ， 
每 一 次 用 动态 配置 的 集群 。 在 远 端 机 器 上 ， 我 们 能 够 运行 python ppserver .py 
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-w 4 -a -d9， 远 端 服务 器 将 用 4 个 处 理 器 (在 Ian 的 笔记 本 电脑 上 默认 会 是 8 个 ， 
但 是 我 们 不 想 使 用 4 个 超 线程 ， 所 以 我 们 选择 了 4 个 CPU)， 使 用 自动 连接 和 调试 
日 志 。 调试 日 志 在 屏 幕 上 打印 调试 信息 ,对 于 检查 工作 是 否 已 经 接收 到 来 说 , 这 是 
有 用 的 。 自 动 连接 标记 意味 着 我 们 不 必 声明 IP 地 址 , 我 们 让 pp 自己 广播 并 连接 到 
服务 器 上 。 


例 10-2 在 集群 上 的 Parallel Python 





pe 















































NBR_JOBS = 1024 

NBR_LOCAL CPUS = 4 

ppservers = ("*",) # set IP list to be autodiscovered 

job_ server = pp.Server (ppservers=ppservers, ncpus=NBR LOCAL CPUS) 





print "Starting pp with", job server.get ncpus(), "local workers" 
nbr trials per process = [NBR ESTIMATES] * NBR JOBS 
jobs = [] 


for input args in nbr trials per process: 
job= job server.submit (calculate pi, (input args,), (), ("random",)) 
jobs .append (job) 








使 用 第 二 台 强 力 的 笔记 本 电脑 来 运行 , 计算 时 间 大 概 减 半 了 。 男 一 方面 , 一 台 具 有 
单 CPU 的 老式 MacBook 几乎 没有 帮助 一 一 它 通常 以 如 此 慢 的 速度 计算 其 中 一 项 任 
务 ， 导 致 快速 的 笔记 本 电脑 空闲 下 来 ， 没有 更 多 的 工作 来 运行 ， 所 以 整体 完成 时 间 
比 只 使 用 一 台 快 速 的 笔记 本 电脑 更 长 久 。 


这 是 一 个 很 有 用 的 方法 来 开始 为 轻 量 级 的 计算 任务 构建 一 个 临时 的 集群 。 你 可 能 不 
想 要 在 生产 环境 中 使 用 它 (Celery 或 者 GearMan 可 能 是 一 个 更 好 的 选择 ) ， 但 是 对 
于 研究 目的 和 易 扩 展 性 来 说 ， 当 知悉 一 个 相关 的 问题 时 ， 它 就 会 让 你 快速 取胜 。 


PP 无 法 帮助 来 分 发 代码 或 静态 数据 给 远 端 的 机 器 ， 你 不 得 不 移动 外 部 库 (例如 ， 
你 可 能 已 经 编译 成 一 个 静态 库 的 任何 东西 ) 到 远 端 机 器 , 并且 提 供 任何 的 共享 数据 。 
它 能 够 序列 化 (pickle) 要 运行 的 代码 ， 处 理 额外 的 导入 以 及 你 从 控制 进程 所 提供 
的 数据 。 


10.6.2 ”使 用 IPython Parallel 来 支持 研究 

对 Python 集群 的 支持 通过 ipclustet 到 来 了 。IPython 成 为 了 一 个 本 地 和 远程 处 
理 引 擎 的 接口 ， 数 据 能 够 在 引擎 之 间 被 推送 ,任务 能 够 被 推送 到 远 端 机 器 上 。 远 程 
调试 是 有 可 能 的 ， 对 消息 传递 接口 (MPI) 的 支持 是 可 选 的 。 相 同 的 通信 机 制 让 
IPython Notebook 接口 变 得 强大 。 
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这 对 研究 设置 来 说 意义 巨大 一 一 你 能 够 把 任务 推送 到 一 个 在 本 地 集群 中 的 机 器 , 做 
交互 ， 如 果 有 问题 就 调试 ， 把 数据 推送 到 机 器 中 ,并 把 结果 收集 回来 ， 所 有 这 一 切 
都 以 交互 的 方式 来 进行 。 也 要 注意 PyPy 运行 IPython 和 了 Python Parallel。 这 个 组 合 
可 能 是 非常 强大 的 〈 如 果 你 不 使 用 numpy)。 


在 幕后 ，ZeroMQ 被 用 来 作为 消息 中 间 件 ， 所 以 你 需要 安装 它 。 如 果 你 在 局 域 网 中 
构建 集群 ， 你 可 以 避免 使 用 SSH 身份 验证 。 如 果 你 需要 一 定 的 安全 性 ， 那 么 它 完 
全 支持 SSH, 但 却 让 配置 变 得 更 加 复杂 一 点 一 一 从 一 个 可 信 的 局 域 网 上 开始 , 接着 
当 你 知悉 每 个 组 件 如 何 工作 时 再 扩建 。 


项 目 被 拆 分 成 4 个 组 件 。 引 擎 是 一 个 运行 代码 的 同步 Python 解释 器 。 你 会 运行 一 
组 引擎 来 开启 并 行 计算 。 控 制 器 提供 了 引擎 的 接口 ， 它 负责 任务 分 发 ， 并 提供 了 一 
个 直接 接口 和 一 个 负载 均衡 接口 来 提供 任务 调度 。 一 个 中 心 枢 纽 用 来 跟踪 引擎 、 调 
度 器 和 客户 端 。 调 度 器 隐藏 了 引擎 的 同步 本 质 ， 提 供 了 一 个 异步 接口 。 


在 笔记 本 电脑 上 ， 我 们 用 ijpcluster start -n 4 来 启动 4 个 引擎 。 在 例 10-3 中 ， 
我 们 启动 IPython 并 检查 一 个 本 地 Client 能 否 看 到 我 们 的 4 个 本 地 引擎 。 我 们 能 够 
使 用 cI:] 来 寻 址 所 有 4 个 引擎 ， 我 们 把 一 个 函数 应 用 于 每 一 个 引擎 一 一 apPIyY_ 
sync 采用 了 一 个 可 调用 函数 ， 这 样 我 们 就 提供 了 一 个 返回 字符 串 的 零 参 数 lambqa 
表达 式 。4 个 引擎 中 的 每 一 个 会 运行 其 中 一 个 函数 ， 并 返回 相同 的 结果 。 


例 10-3 ”测试 我 们 是 否 能 用 IPython 看 到 本 地 引擎 


In [1]: from IPython.parallel import Client 


























































































































: c= Client() 


-Print C1ids 
[0, 1, 2, 3] 


In [4]: 
Out [4] : 








c[:].apply sync(LIampbqa:"Hello High Performance Pythonistas!") 


[ "He lo 
"He lo 
'Hello 
'Hello 


会 被 导入 远程 引 警 。 一 个 既 用 
sync import 上 下 文 管理 


High 
High 
High 
High 


Performance 
Performance 
Performance 
Performance 








Pythonistas!', 
Pythonistas!', 
Pythonistas!', 


Pythonistas! 


创建 我 们 的 引擎 之 后 ， 现 在 它们 处 于 空白 状态 。 




















如 果 我 们 在 本 地 导入 模块 ， 它 们 不 











器 。 在 例 10-4 中 ， 我 们 将 在 本 地 IPython 和 


FE 本 地 导入 又 在 远 端 导 和 人 的 干净 的 办 法 就 是 使 用 


4 个 连接 的 





引擎 上 导入 os ， 接 着 在 4 个 引擎 上 再 次 调用 apply_sync 来 获取 它们 的 PIDs。 如 




















果 我 们 不 做 远程 导入 , 我 们 会 得 到 一 个 Namel 





Error, 因为 远程 引 警 不 知道 os 模块 。 


我 们 也 能 使 用 execue 来 在 引擎 上 远程 运行 任何 的 Python 命令 。 





集 
异步 社区 会 员 woshigedushuren(13120020972) 专 享 人 


二 和 队列 261 


例 10-4 ”把 模块 导入 远程 引擎 


In [5]: dview=c[:] # this is a direct view (not a load-balanced view) 


In [6]: with dview.sync imports(): 
RAE import os 


importing os on engine (S) 


In [7]: dview.apply sync (lambda:os.getpid()) 
Out[7]: [15079, 15080, 15081, 15089] 


In [8]: dview.execute ("import sys") # another way to execute commands remotely 
你 会 想 要 把 数据 推送 到 引擎 。 在 例 10-5 中 显示 的 push 命令 让 你 发 送 字典 项 来 加 

入 每 个 引擎 的 全 局 名 字 空 间 。 有 相应 的 pull 来 获取 这 些 项 : 你 指定 键 , 它 就 会 从 
每 个 引擎 返回 对 应 的 值 。 


例 10-5 ”把 共享 数据 推送 到 引擎 


In [9]: dview.push({'shared data':[50, 100]}) 
Out[9]: <AsyncResult: push> 








In [10]: dview.apply sync (lambda:len(shared data)) 
Qut L100l: (22 ZE 2 2 


现在 让 我 们 给 集群 增加 第 二 台 机 器 。 首 先 ， 我 们 将 杀 死 之 前 所 创建 的 ipengine 
引擎 并 结束 掉 IPython。 我 们 会 从 一 个 干净 的 状态 开始 。 你 将 需要 第 二 台 可 用 的 机 
器 ， 配 置 有 SSH 来 允许 你 自动 登入 。 


在 例 10-6 中 , 我 们 会 为 集群 创建 一 个 新 画像 。 一 组 配置 文件 被 放 入 <HOME>/.ipthon/ 
profile mycluster 目录 下 。 引 擎 默认 被 配置 成 只 接受 来 自 localhost 的 连接 ， 而 不 接 
受 来 自 外 部 设备 的 连接 。 编 辑 ipengine_config.py 来 配置 HupFactory， 以 
便 接 受 外 部 的 连接 ， 保 存 起 来 ， 接 着 使 用 新 画像 来 启动 jpcluster。 我 们 会 回 到 
4 个 本 地 引擎 。 


例 10-6 ”创建 一 个 接受 公共 连接 的 本 地 画像 


$ ipython profile create mycluster --parallel 

$ gvim /home/ian/.ipython/profile mycluster/ipengine config.py 
# aaa "c.HubFactory.ip = '*'" near the top 

$ ipcluster start -n 4 --profile=mycluster 


接 下 来 我 们 需要 把 这 个 配置 文件 传递 给 我 们 的 远程 机 器 。 在 例 10-7 中 ， 我 们 使 用 
scp 来 把 ipcontroller-engine.json (在 我 们 启动 ipcluster 的 时 候 所 创建 ) 拷贝 到 远程 
机 器 的 .config/ipython/profile_ defaultsecurity 目录 下 。 一旦 拷贝 完成 ,就 在 远程 机 器 
上 运行 ipengine。 它 会 在 默认 目录 下 查找 ipcontroller-engine.json， 如 果 成 功 连接 了 ， 
接着 你 就 会 看 到 类 似 在 这 里 所 显示 的 消息 。 
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例 10-7 ”把 编辑 好 的 画像 拷贝 到 远程 机 器 并 做 测试 
# On the local machine 


$ scp /home/ian/.ipython/profile mycluster/security/ipcontroller-engine.json 
ian@192.168.0.16:/home/ian/.config/ipython/profile default/security/ 


# Now on the remote machine 

ian@ubuntu:~$ ipengine 
..Using existing profile dir: u'/home/ian/.config/ipython/profile default'" 
..Loading url file u'/home/ian/.config/ipython/profile default/security/ 

ipcontroller-engine.json' 

. .Registering with controller at tcp://192.168.0.128:35963 
.Starting to monitor the heartbeat signal from the hub every 3010 ms. 
. .Using existing profile dir: u'/home/ian/.config/ipython/profile default'" 
..Completed registration with id 4 

















让 我 们 测试 配置 。 在 例 10-8 中 我 们 会 使 用 新 画像 启动 一 个 本 地 IPython shell。 我们 
会 获取 5 个 客户 端 列 表 (4 个 本 地 ，1 个 远程 )， 接 着 我 们 会 请 求 Python 的 版 本 信 
息 一 一 我 们 能 看 到 在 远程 机 器 上 ， 我 们 正 使 用 着 Anaconda 发 布 版 。 我 们 只 得 到 了 
一 个 额外 的 引擎 ， 因 为 在 这 个 案例 中 ， 远 程 机 器 是 一 个 单 核 的 MacBook。 


例 10-8 测试 新 机 器 是 集群 的 一 部 分 

$ ipython --profile=mycluster 

Python 2.7.5+ (default, Sep 19 2013, 13:48:49) 

Type "copyright", "credits" or "license" for more information. 
IPython 1.1.0-An enhanced Interactive Python . 























In [1]: from IPpython.parallel import Client 
In [2]: c = Client() 


Tn [3 © Lds 
OutT3]s Or Ly "2. 37. 4] 


In [4]: dview=c[:] 


In [5]: with dview.sync imports(): 
import sys 








In [6 dview.apply_ sync (lambda:sys.version) 
Ou 
['2.7.5+ (default, Sep 19 2013, 13:48:49) \n[GCC 4.8.1]', 
"2.7.5+ (default, Sep 19 2013, 13:48:49) \n[GCC 4.8.1]', 
'2.7.5+ (default, Sep 19 2013, 13:48:49) \n[GCC 4.8.1]', 
'2.7.5+ (default, Sep 19 2013, 13:48:49) \n[GCC 4.8.1]', 
'2.7.6 |Anaconda 1.9.2 (64-pbit)| (default, Jan 17 2014, 10:13:17) \n 
] 


[GCC 4.1.2 20080704 (Red Hat 4.1.2-54)]" 





羊 和 | | 263 
异步 社区 会 员 woshigedushuren(13120020972) | 


让 我 们 把 这 一 切 放 在 一 起 。 在 例 10-9 中 , 我 们 将 使 用 5 个 引擎 来 估算 pi， 就 如 
我 们 在 10.6.1 节 中 所 做 的 那样 。 这 次 我 们 将 使 用 Grequire 装饰 器 来 在 引擎 中 
导入 random 模块 。 我 们 使 用 一 个 直接 的 视图 来 把 我 们 的 工作 发 送 到 引擎 上 ， 
这 会 阻塞 在 那里 直到 所 有 的 结果 返回 过 来 。 接 着 我 们 就 像 以 前 所 做 的 那样 来 估 
算 pi。 

例 10-9 使 用 我 们 的 本 地 集群 估算 pi 


from IPython.parallel import Client, require 
NBR ESTIMATES = le8 
































@require('random') 
def calculate pi(nbr estimates): 


return nbr trials in unit circle 





if name == " main 
c= Client() 
nbr engines = len(c.ids) 
print "We're using {} engines" .format (nbr engines) 





dview = c[:] 
nbr in unit circles = dview.apply sync(calculate pi, NBR ESTIMATES) 


print "Estimates made:", nbr in unit circles 


# work using the engines only 
nbr jobs = len(nbr in unit circles) 
print sum(nbr in unit circles) * 4 / NBR ESTIMATES / nbr jobs 


IPython Parallel 提供 了 比 在 这 儿 所 展示 的 要 多 得 多 的 功能 。 异 步 任 务 和 在 更 大 的 
输入 区 间 上 的 映射 当然 是 可 能 的 。 它 也 有 一 个 CompositeError 类 ， 这 是 一 
个 更 高 层次 的 异常 ， 用 来 封装 发 生 于 多 个 引擎 上 的 相同 的 异常 《如果 你 部 署 了 
糟糕 的 代码 ， 你 不 会 接收 到 多 个 完全 相同 的 异常 1)。 当 你 处 理 多 个 引 警 时， 这 
就 是 一 个 便利 。 


IPython Parallel 的 一 个 尤其 强大 的 特性 就 是 允许 你 使 用 更 大 的 集群 环境 ， 包 括 超 
级 计算 机 和 类 似 于 亚马逊 EC2 的 云 服 务 。 为 了 进一步 方便 这 种 类 型 的 集群 开发 ， 
Anaconda 发 布 版 包含 了 对 StarCluster 的 支持 。Olivier Grisel 在 PyCon 2013 上 给 
出 了 一 个 使 用 scikit-learn 来 做 高 级 机 器 学 习 的 一 本 优秀 的 教材 。 在 两 个 小 


时 内 ， 他 演示 了 使 用 StarCluster 在 亚马逊 的 EC2 临时 实例 上 通过 IPython Parallel 
来 做 机 器 学 习 。 
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10.7 为 鲁 棒 生 产 集群 的 NSQ 


在 生产 环境 中 ， 你 需要 远 比 我 们 所 谈 到 的 其 他 解决 方案 更 健壮 的 解决 方案 。 这 是 
因为 在 你 的 集群 每 天 运营 期 间 ， 节 点 可 能 变 得 不 可 用 ， 代 码 可 能 会 崩溃 掉 ， 网 络 
可 能 会 断 线 ， 或 者 在 其 他 数 以 千 计 会 发 生 的 问题 中 ， 其 中 的 一 个 就 可 能 发 生 了 。 
问题 就 在 于 以 前 所 有 的 系统 有 一 台 计 算 机 来 发 布 命令 ， 还 有 有 限 和 静态 数量 的 
计算 机 来 读 取 并 执行 命令 。 我 们 宁愿 用 一 个 使 用 消息 总 线 的 多 角色 (actor) 的 
系统 来 取而代之 一 一 这 将 允许 我 们 具有 数量 任意 和 经 常 变化 的 消息 创建 者 和 消 
息 消费 者 。 


针对 这 些 问 题 的 一 个 简单 解决 方案 就 是 NSQ， 一 个 高 性 能 的 分 布 式 消息 平台 。 尽 管 
它 是 用 GO 编写 的 ， 但 它 是 完全 与 数据 格式 和 语言 无 关 的 。 结 果 就 是 有 很 多 语言 写 
成 的 库 ， 访 问 NSQ 的 基本 接口 是 只 需要 能 够 创建 HTTP 调用 的 REST API。 而 且 ， 

我 们 能 够 用 想 要 的 任何 格式 来 传送 消息 : JSON、Pickel、msgpack 等 。 无 论 如何 ， 
最 重要 的 是 , 它 提供 了 关于 消息 递送 的 基本 保证 , 并 且 它 使 用 了 两 个 简单 的 设计 模 
式 来 做 好 了 一 切 : 队列 和 发 布 者 /订阅 者 模式 。 


10.7.1 队列 

队列 是 一 种 消息 的 缓存 类 型 。 无 论 何 时 , 当 你 想 把 消息 传送 给 处 理 管道 的 另 一 端 时 ， 
你 把 它 发 送 到 队列 , 它 会 在 队列 里 等 待 直到 有 可 用 的 工作 者 来 读 取 它 。 当 生产 和 消 
费 之 间 存 在 不 平衡 时 ， 队 列 在 分 布 式 处 理 中 是 最 有 用 的 。 如 果 发 生 了 不 平衡 , 我 们 
仅仅 通过 添加 更 多 的 数据 消费 者 即 可 水 平 扩展 , 直到 消息 生产 的 速率 等 于 消费 的 速 
率 。 另外 , 如 果 负 责 消费 消息 的 计算 机 下 线 了 , 消息 不 会 丢失 , 只 是 在 队列 中 排队 ， 
直到 出 现 可 用 的 消费 者 ， 这 样 就 给 了 我 们 消息 递送 的 保证 。 


例如 , 假设 我 们 想 要 在 用 户 每 次 给 我 们 站 点 的 商品 评分 的 时 候 , 给 用 户 处 理 新 的 推 
荐 。 如 果 我 们 没有 队列 ,那么 “评分 ”的 行为 会 直接 调用 “重新 计算 推荐 ”的 行为 ， 
而 不 管 服务 器 正 拼命 忙于 处 理 推荐 。 如 果 突 然 间 数 以 千 计 的 用 户 决 定 给 某 件 商 品评 
分 , 我 们 的 推荐 服务 器 就 可 能 会 疲 于 应 付 这 些 请 求 , 它们 就 可 能 会 开始 超时 ,丢弃 
消息 ， 通 常 变 得 失去 响应 ! 


另 一 方面 , 当 任务 准备 好 时 , 推荐 服务 器 使 用 队列 来 请 求 更 多 的 任务 。 一 个 新 的 “ 评 
分 ”行为 会 把 一 个 新 任务 放 入 队列 ， 当 推荐 服务 器 准备 做 更 多 工作 时 ， 它 会 从 队列 
中 抓 取 任务 来 处 理 。 在 这 个 设 定 中 , 如 果 比 平常 更 多 的 用 户 开 始 给 商品 评分 ,我 们 
的 队列 将 会 塞 满 , 对 于 推荐 服务 器 来 说 它 的 行为 就 像 是 一 个 缓存 一 一 它们 的 工作 负 
载 将 不 受 影响 ， 它 们 还 会 处 理 消息 ， 直 到 队列 变 空 。 
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随 之 而 来 的 一 个 潜在 的 问题 就 是 如 果 队 列 完全 被 任务 搞 得 不 堪 重 负 , 它 将 会 存储 相 
当 多 的 消息 。NSQ 通过 多 个 存储 后 端 来 解决 这 个 问题 当 没 有 许多 消息 时 ， 它 
们 保存 在 内 存 中 ， 当 更 多 的 消息 开始 进来 时 ， 把 消息 放置 进 磁盘 中 。 
忘 
一 般 来 说 ， 当 使 用 队列 系统 来 工作 时 ， 设 法 让 下 流 的 系统 ( 例如， 前 
面 例子 中 的 推荐 系统 ) 处 于 正常 工作 负载 60% 的 容量 是 一 个 好 主意 。 
在 给 问题 分 配 足够 多 的 资源 与 当 工作 量 增加 到 超出 正常 水 平时 给 你 
的 服务 器 充足 的 额外 能 力 之 间 进 行 权衡 ， 这 是 一 个 良好 的 受 协 。 

















10.7.2 发布 者 /订阅 者 

男 一 方面 ，pub/sub (发 布 者 /订阅 者 的 简称 ) 描述 了 谁 来 得 到 哪些 消息 。 数 据 发 布 
者 能 够 推送 关于 特定 主题 的 数据 , 而 数据 订阅 者 注册 不 同 的 数据 源 。 无论 发 布 者 何 
时 发 放 信息 , 它 都 发 送 给 所 有 的 订阅 者 一 一 它们 各 自得 到 原始 信息 的 一 份 完全 相同 
的 拷贝 。 你 可 以 把 它 想象 成 报纸 : 许多 人 能 够 订阅 特定 的 报纸 ， 无 论 新 版 本 的 报纸 
何 时 出 来 , 每 一 个 订阅 者 都 得 到 一 份 完全 相同 的 拷贝 。 男 外 ,报纸 的 生产 者 完全 不 
需要 知道 报纸 要 发 送 给 的 人 群 。 结 果 就 是 ,发布 者 和 订阅 者 相互 解 厢 了 ， 当 我 们 的 
网 络 发 生变 化 ， 还 处 于 生产 环境 中 时 ， 让 我 们 的 系统 变 得 更 健壮 。 


除 此 之 外 ，NSQ 增加 了 数据 消费 者 的 概念 ， 那 就 是 ， 多 个 进程 能 够 连接 到 相同 的 
数据 发 布 。 无 论 新 的 数据 何 时 出 来 ， 订 阅 者 都 得 到 一 份 数据 拷贝 。 无 论 怎样 ， 每 个 
订阅 只 有 一 个 消费 者 看 到 了 数据 。 在 与 报纸 的 类 比 中 , 你 可 以 把 它 想象 成 让 多 名 阅 
读 报 纸 的 人 处 于 相同 的 家 庭 中 。 发 布 者 将 把 一 份 报纸 递送 到 家 中 ,既然 家 庭 只 订阅 
了 一 次 , 在 家 中 谁 先 拿 到 报纸 谁 就 可 以 阅读 数据 。 当 每 一 个 发 布 者 的 消费 者 看 到 消 
息 时 ,对 消息 做 相同 的 处 理 。 无 论 如何 , 它们 可 以 悄悄 地 在 多 台 计 算 机 上 ， 这样 就 
更 增强 了 整个 计算 池 的 处 理 能 力 。 


我 们 在 图 10-1 中 可 以 看 到 对 发 布 者 /处 理 者 模式 的 描述 。 如 果 一 条 关于 “点 击 ” 主 
题 的 新 消息 发 布 出 来 了 ， 所 有 的 订阅 者 (或 者 ， 用 NSQ 的 术语 来 说 ， 就 是 通道 
一 一 例如 , “指标 “ 作 整 分 析 ”， 以 及 “打包 ”) 将 得 到 一 份 拷贝 。 每 个 订阅 者 由 
一 个 或 多 个 消费 者 所 组 成 ， 代 表 对 响应 消息 的 实际 处 理 。 在 “指标 ”订阅 者 的 情况 
下 , 只 有 一 个 消费 者 会 看 到 新 消息 。 下 一 条 消息 将 到 另 一 个 消费 者 那 去 , 依次 类 推 。 
在 潜在 的 大 规模 的 消费 者 池 中 传播 消息 的 好 处 就 是 实质 上 做 自动 的 负载 均衡 。 
如 果 一 条 消息 要 花费 很 长 的 时 间 来 处 理 ， 消 费 者 直到 处 理 完成 后 ， 才 会 发 信号 
给 NSQ 表示 自己 已 准备 好 接受 更 多 的 消息 , 这 样 其 他 消费 者 将 获得 以 后 的 大 部 
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分 消息 〈 直 到 原来 的 消费 者 做 好 了 再 次 处 理 的 准备 )。 另 外 ， 它 允许 已 经 存在 的 
消费 者 断 开 连接 (无 论 是 自主 选择 还 是 因为 失效 ) ， 还 允许 新 的 消费 者 连接 到 集 
群 ， 然 而 又 保持 了 在 特定 订阅 组 中 的 处 理 能 力 。 例 如 ， 如 果 我 们 发 现 “ 指 标 ” 
要 花费 相当 长 的 时 间 来 处 理 ， 而 且 常 常 跟 不 上 需求 ， 我 们 就 能 够 仅仅 为 订阅 组 
添加 更 多 的 进程 给 消费 者 池 ， 以 便 给 予 我 们 更 多 的 处 理 能 力 。 另 一 方面 ， 如 果 
我 们 看 到 大 多 数 进程 处 于 空闲 〈 例 如 ， 没 有 得 到 任何 消息 ) ， 我 们 能 够 轻易 地 从 
这 个 订阅 组 中 移 除 消费 者 。 














独立 主机 


1 
-- 攻 2 -- 
1 


“打包 ” 时 

















图 10-1 NSQ 的 发 布 者 /订阅 者 拓扑 图 


注意 到 无 论 是 谁 都 能 发 布 数据 也 很 重要 。 消费 者 不 仅仅 一 定 是 消费 者 一 一 它 可 以 从 
一 个 主题 消费 数据 , 接着 发 布 男 一 个 主题 , 事实 上 , 当 涉 及 分 布 式 计算 这 种 范式 时 ， 
这 条 链 是 一 个 重要 的 工作 流 。 消 费 者 读 取 一 个 主题 的 数据 ， 以 某 种 方式 转换 数据 ， 
接着 发 布 关 于 一 个 新 主题 的 数据 , 而 其 他 消费 者 能 够 进一步 转换 它 。 和 凭借 这 种 方式 ， 
不 同 的 主题 代表 不 同 的 数据 , 订阅 组 代表 对 数据 的 不 同 转换 , 而 消费 者 就 是 转换 个 
体 消 息 的 实际 工作 者 。 


而 且 , 在 这 个 系统 中 存在 极 大 的 宛 余 。 可 以 有 许多 nsqd 进程 让 每 个 消费 者 连接 上 ， 
可 以 有 许多 消费 者 连接 到 一 个 特定 的 订阅 上 。 这 样 就 没有 单 点 失效 问题 , 即使 几 台 
机 器 下 线 了 ， 你 的 系统 还 是 鲁 棒 的 。 我 们 可 以 看 到 在 图 10-2 中 ， 即 使 图 表 中 的 一 
台 计 算 机 下 线 了 ， 系 统 还 是 能 够 投递 和 处 理 消 息 。 另 外 ， 既 然 NSQ 在 关闭 时 把 挂 
起 的 消息 存储 到 了 磁盘 中 , 除非 硬件 失效 是 致命 的 灾难 ， 否则 你 的 数据 还 是 非常 有 
可 能 被 完好 无 缺 地 投递 。 最 后 ， 如 果 消 费 者 在 响应 一 条 特定 的 消息 前 关机 了 ,NSQ 
将 会 把 消息 重新 发 送 给 另外 一 个 消费 者 。 这 意味 着 即使 有 多 个 消费 者 关机 了 , 我 们 
知道 一 个 主题 的 所 有 消息 将 至 少 得 到 一 次 响应 。 






























































Q@ 当 我 们 正 使 用 AWS 工作 时 ， 这 将 具有 相当 大 的 优势 ， 我 们 能 够 让 nsqd 进程 运行 于 一 个 保留 实例 上 ， 而 
我 们 的 消费 者 工作 于 临时 实例 的 集群 中 。 
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10-2 ”NSQ 的 连接 拓扑 


10.7.3 分布 式 素数 计算 器 

使 用 NSQ 的 代码 一 般 是 异步 的 (请 看 第 8 章 对 它 的 完全 解释 ) ， 尽 管 它 不 一 定 非 
要 如 此 。 在 下 面 的 例子 中 , 我 们 会 创建 一 个 工作 者 池 , 工作 者 读 取 一 个 称 作 numbers 
的 主题 ,消息 只 是 含有 数字 的 JSON 二 进 制 对 象 。 消 费 者 将 读 取 这 个 主题 ， 查 找 数 
字 是 否 为 素数 , 接着 根据 数字 是 否 为 素数 来 写 人 另 一 个 主题 。 这 将 给 我 们 两 个 新 主 
题 ，primes 和 non_primes， 其 他 消费 者 就 可 以 连接 上 来 做 更 多 的 运算 。 


就 如 我 们 之 前 所 说 的 ， 像 这 样 来 做 CPU 密集 型 的 工作 有 很 多 好 处。 首先 ， 我 们 得 
到 了 完全 鲁 棒 性 的 保证 ， 这 可 能 对 这 个 项 目 有 用 ， 也 可 能 无 用 。 无 论 如 何 ， 最 重要 
的 是 , 我们 得 到 了 自动 的 负载 均衡 。 这 意味 着 如 果 一 个 消费 者 得 到 了 一 个 花费 特别 
长 时 间 处 理 的 数字 ， 另 一 个 消费 者 就 会 上 手 。 


我 们 通过 创建 一 个 具有 主题 和 所 声明 的 订阅 组 (可 以 在 例 10-10 的 末尾 看 到 ) 的 
nsq.Reader 对 象 来 创建 一 个 消费 者 。 我 们 也 必须 声明 运行 nsq9 实例 的 位 置 (或 
者 nsqlookupd 实例 ,我 们 在 本 节 中 不 会 接触 到 )。 另 外 ,我 们 声明 一 个 handler， 
这 只 是 一 个 函数 , 对 来 自主 题 的 每 一 条 消息 , 它 都 会 被 调用 到 。 为 创建 一 个 生产 者 ， 
我 们 创建 了 一 个 nsq.Writer 对 象 ， 并 声明 了 一 个 或 更 多 的 nsqd 实例 要 写 人 的 
位 置 。 这 样 就 给 了 我 们 异步 写 和 人 nsq 的 能 力 ， 只 要 声明 主题 名 字 和 消息 即 可 。 


例 10-10 使 用 NSQ 的 分 布 式 素数 计算 


import nsq 
from tornado import gen 

























































































from functools import partial 








@ 这 种 异步 性 来 自 于 NSQ 的 协议 以 基于 推送 的 方式 来 发 送 消息 给 消费 者 。 这 使 得 我 们 的 代码 能 够 在 后 台 从 
NSQ 的 连接 中 异步 读 取 ， 当 发 现 消息 时 就 唤醒 。 

@ 这 种 类 型 的 数据 分 析 链 被 称 作 管道 化 ， 可 以 是 一 种 有 效 的 方法 来 高 效 地 对 相同 的 数据 执行 多 种 类 型 的 分 析 。 

@ 你 也 能 手动 使 用 一 个 HTTP 调用 轻易 地 发 布 一 条 消息 。 无 论 如何 , 这 个 nsq.Writer 对 象 大 大 简化 了 错误 处 理 。 
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import ujson as json 


Qgen.coroutine 
def write message (topic, data, writer): 
response = yield gen.Task (writer.pub, topic, data) # ©@ 
if isinstance (response, nsq.Error): 
print "Error with Message: {}: {}".format (data, response) 
yield write message (data, writer) 
else: 
print "Published Message: ", data 








def calculate prime (message, writer): 
message.enable async() # 四 
data = json.loads (message.body) 


prime = is prime (datal"number"]) 
datal[l"prime"] = prime 
if prime: 
topic = 'primes' 
else: 
opie. = "NOon, primes”" 


output message = json.dumps (data) 
write message (topic, output message, writer) 
message.finish() # © 
土 直 name == " main ": 
writer = nsq.Writer(['127.0.0.1:4150', ]) 
handler = partial(calculate prime, writer=writer) 
reader = nsq.Reader!( 
message handler = handler, 











nsqd tcp addresses = ['127.0.0.1:4150', ], 
topic = 'numbers', 
channel = 'worker group a', 

) 

nsq.run() 








@ 我 们 将 异步 地 把 结果 写 入 一 个 新 主题 ， 如 果 因 某 种 原因 失败 了 就 重新 写 。 
@ 通过 在 消息 上 使 async 生效 ， 我 们 能 够 在 处 理 消 息 时 执行 异步 的 操作 。 
@ 使 用 async-enabled 消息 ， 我 们 在 处 理 完 消息 时 必须 给 NSQ 发 信号 。 


为 了 设置 NSQ 生态 系统 ， 我 们 将 在 本 地 机 器 上 启动 一 个 nssd 的 实例 : 


$ nsdd 

2014/05/10 16:48:42 nsqd v0.2.27 (built w/gol.2.1) 

2014/05/10 16:48:42 worker id 382 

2014/05/10 16:48:42 NSQ: persisting topic/channel metadata to nsqd.382.dat 
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2014/05/10 16:48:42 TCP: listening on [::]:4150 
2014/05/10 16:48:42 HTTP: listening on [::]:4151 


现在 , 我们 可 以 启动 我 们 所 想 要 的 数量 的 Python 代码 的 实例 ( 例 10-10)。 事实 上 ， 
我 们 可 以 让 这 些 实例 运行 在 其 他 计算 机 上 ， 只 要 在 nsq.Reader 实例 化 中 对 
nsqd_tcp_aqdress 的 引用 还 是 合法 的 。 这 些 消费 者 将 连接 到 nsqd， 并 等 待 关 
于 numbers 主题 的 消息 被 发 布 出 来 。 


数据 发 布 到 numbers 主题 上 有 很 多 种 办 法 。 既然 了 解 到 掌握 一 个 系统 的 方式 要 经 历 
一 段 长 久 的 过 程 才 理解 怎样 合适 地 处 理 它 , 我 们 将 使 用 命令 行 工具 来 做 。 我 们 可 以 
仅仅 使 用 HITP 接口 来 给 主题 发 布 消息 : 

$ for i in ‘seq 10000° 

> do 


> echo {\"number\": $i} | curl -de- "http://127.0.0.1:4151/pub?topic=numbers" 
> done 


当 这 个 命令 开始 运行 时 ,我们 以 不 同 的 数字 在 其 中 发 布 消息 给 numbers 主题 ,同时 ， 
所 有 的 生产 者 将 开始 输出 状态 消息 , 表明 它们 已 经 看 见 并 处 理 了 消息 。 男 外 ， 这些 
数字 或 发 布 给 primes 主题 ， 或 发 布 给 non_primes 主题 。 这 人 允许 我 们 有 其 他 的 数据 
消费 者 连接 到 这 些 主题 中 的 任意 一 个 来 得 到 一 个 过 滤 我 们 原始 数据 的 子 集 。 例 如 ， 
一 个 只 需要 素数 的 应 用 可 以 只 连接 到 primes 主题 而 总 是 有 新 的 素数 来 为 它 自己 的 
运算 。 我 们 可 以 通过 使 用 nsqd 的 stats HTTP 端点 来 观看 我 们 运算 的 状态 : 


$ curl "http://127.0.0.1:4151/stats" 
nsgqd v0.2.27 (built w/gol.2.1) 



























































[numbers ] depth: 0 be-depth: 0 msgs: 3060 e2es%s: 
[worker group a ] depth: 1785 be-depth: 0 TE Ete: 寺 def: 0 
re-q: 0 timeout: 0 msgs: 3060 e2es: 
[V2 muon:55915 ] state: 3 inflt: 1 rdy:; 0 fin: 1469 
re-q: 0 msgs: 1469 connected: 24s 
[primes ] depth: 195 be-depth: 0 msgs: 1274 e2es%s: 
[non primes ] depth: 1274 be-depth: 0 msgs: 1274 e2es%s: 


我 们 在 这 儿 能 看 到 numbers 主题 有 一 个 订阅 组 work_group_a 和 一 个 消费 者 。 另 外 , 订 
阅 组 有 一 个 长 达 1785 条 消息 的 大 纵深 ， 这 意味 着 我 们 把 消息 放 和 人 NSQ 的 速度 超过 我 
们 能 够 处 理 的 速度 。 这 个 迹象 表明 要 增加 更 多 的 消费 者 ， 这 样 我 们 就 有 更 多 的 处 理 能 
力 来 应 对 更 多 的 消息 。 而且, 我 们 可 以 看 到 这 个 特定 的 消费 者 已 经 连接 了 24 秒 , 已 经 
处 理 了 1469 条 消息 , 并 且 当 前 还 有 1 条 消息 正在 处 理 中 。 这 个 状态 端点 给 出 了 大 量 信 
息 来 调试 你 的 NSQ 设置 ! 最 后 ， 我 们 来 看 看 primes 和 non_primes 主题 ， 它 们 没有 订 
阅 者 或 者 消费 者 。 这 意味 着 消息 将 会 存储 起 来 直到 有 一 个 订阅 者 过 来 请 求 数据 。 
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备 忘 

在 生产 系统 中 ， 你 甚至 能 使 用 更 加 强大 的 工具 nsdadmin， 它 提供 了 
一 个 web 接口 ， 具 有 很 详细 的 关于 所 有 主题 /订阅 者 以 及 消费 者 的 概 
况 。 另 外 ， 它 允许 你 轻易 地 暂停 以 及 删除 订阅 者 和 主题 。 


为 了 实际 观看 这 些 消息 ， 我 们 将 为 primes 主题 (或 者 non_primes) 创建 一 个 新 消 
费 者 ， 只 是 把 结果 打包 进 一 个 文件 或 者 数据 库 。 或 者 ， 我 们 可 以 使 用 nsq_tail 工具 
来 看 看 数据 包含 了 哪些 内 容 : 

$ nsq tail --topic primes --nsqd-tcp-address=127.0.0.1:4150 

2014/05/10 17:05:33 starting Handler go-routine 

2014/05/10 17:05:33 [127.0.0.1:4150] connecting to nsqd 

2014/05/10 17:05:33 [127.0.0.1:4150] IDENTIFY response: 

{MaxRdyCount:2500 TLSv1:false Deflate:false Snappy:falsel} 

"prime":true, "number":5} 
"prime":true, "number":7} 
"prime":true, "number":11} 
"prime":true, "number":13} 
"prime":true, "number":17} 


10.8 看 一 下 其 他 的 集群 化 工具 


使 用 队列 的 任务 处 理 系统 自从 计算 机 科学 领域 的 开端 以 来 就 存在 了 , 追溯 到 那个 计 
算 机 很 缓慢 而 且 有 许多 任务 需要 被 处 理 的 时 代 。 结果 就 是 有 许多 队列 库 , 其 中 很 多 
能 够 在 集群 配置 中 使 用 。 我们 强烈 推荐 你 挑选 一 个 背后 有 积极 社区 的 成 熟 库 , 支持 
你 所 需要 的 相同 的 特性 集 ， 并 且 没 有 太 多 的 附加 特性 。 


一 个 库 具有 越 多 的 特性 , 则 你 会 发 现 错误 配置 的 情况 也 越 多 , 从 而 在 调试 上 浪费 时 
间 。 当 处 理 集群 的 解决 方案 时 ， 简 单 化 通常 就 是 正确 的 目标 。 有 一 些 使 用 更 普遍 的 
集群 化 解决 方案 : 


。 Celery (BSD 许可 ) 是 一 个 使 用 分 布 式 消息 架构 的 被 广泛 使 用 的 异步 任务 队 
列 ， 用 Python 所 编写 。 它 支持 Python、PyPy， 以 及 Jython。 典 型 情况 下 它 使 
用 RabbitMQ 作为 消息 代理 ,但 是 也 支持 Redis、MongoDB 和 其 他 的 存储 系 
统 。 它 通常 在 Web 开发 项 目 中 所 使 用 。Andrew Godwin 在 12.6 节 中 讨论 了 
Celery。 


。 Gearman (BSD 许可 ) 是 一 个 多 平台 的 任务 处 理 系统 。 如 果 你 正在 使 用 不 同 的 
技术 来 集成 处 理 任务 ， 它 是 非常 有 用 的 。 它 具有 对 Python、PHP、C++、Perl 
以 及 其 他 许多 语言 的 绑 定 。 
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。 PyRes 是 针对 Python 的 基于 Redis 的 轻 量 级 的 任务 管理 器 。 添 加 任务 进 Redis 
的 队列 中 , 设置 消费 者 来 处 理 它 们 ， 并且 选 择 性 地 把 结果 在 一 个 新 的 队列 中 传 
递 回 去 。 如 果 你 的 需求 是 轻 量 级 的 而 且 只 用 Python, 它 是 一 个 作为 起 点 的 非常 
简单 的 系统 。 


。 ”亚马逊 的 简单 队列 服务 (SQS ) 是 集成 进 亚马逊 Web 服务 的 一 个 任务 处 理 系统 。 
任务 消费 者 和 生产 者 能 够 存在 于 AWS 内 部 或 者 外 部 , 这 样 SQS 启动 简单 ， 
且 支 持 简单 的 迁移 人 云 。 对 许多 语言 有 库 支 持 。 


集群 也 能 用 于 分 布 式 的 numpy 处 理 , 但 是 这 是 一 个 在 Python 世界 中 相对 年 轻 的 发 
展 。 通 过 distarrary 和 blaze 包 ，Enthough 和 Continuum 都 有 解决 方案 。 注 
意 这 些 包 企图 为 你 处 理 同 步 化 和 数据 局 部 性 的 复杂 问题 (没有 一 个 适合 所 有 情况 的 
解决 方案 )， 所 以 要 注意 你 可 能 会 不 得 不 思考 你 的 数据 布局 和 访 取 的 方式 。 

































































10.9 ”小结 


本 书 到 此 为 止 , 我 们 已 经 看 到 了 做 剖析 来 理解 你 代码 中 运行 慢 速 的 部 分 , 编译 并 使 
用 numpy 来 让 你 的 代码 运行 得 更 快 ， 以 及 各 种 各 样 针 对 多 进程 和 多 主机 的 方法 。 
在 倒数 第 二 章 ， 我 们 将 看 到 多 种 通过 不 同 的 数据 结构 和 概率 手段 来 使 用 更 少 RAM 
的 方法 。 这 些 教程 能 够 帮助 你 把 所 有 数据 存放 于 一 台 机 器 上 ,从 而 免 去 了 运行 集群 
的 需求 。 
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第 11 章 





使 用 更 少 的 RAM 


读 完 本 章 之 后 你 将 能 够 回答 下 列 问题 


为 什么 我 应 该 使 用 更 少 的 RAM? 

为 什么 numpy 和 array 对 存储 大 量 数字 而 言 更 有 利 ? 
怎样 把 许多 文本 高 效 地 存储 进 RAM? 

我 该 如 何 能 仅仅 使 用 一 个 字 节 来 (近似 地 ) 计数 到 1e77? 
什么 是 布 隆 过 滤 ? 为 什么 我 可 能 会 需要 它们 ? 








我 们 很 少 会 思考 我 们 正在 使 用 多 少 RAM， 一 直到 把 它 用 完 为 止 。 如 果 你 在 扩展 代 
码 时 用 完了 内 存 , 它 就 会 成 为 一 个 突如其来 的 阻碍 者 。 把 更 多 的 东西 纳入 一 台 机 器 
的 RAM 意味 着 更 少 的 机 器 要 管理 ， 并 且 给 你 一 条 途径 来 为 更 大 的 项 目 规划 容量 。 
了 解 为 什么 RAM 被 吃 光 了 而 且 考 虑 更 有 效 的 方式 来 使 用 这 个 稀缺 资源 将 有 助 于 你 
处 理 扩展 性 的 问题 。 


另 一 种 节约 RAM 的 途径 就 是 使 用 容器 来 利用 你 的 数据 特性 进行 压缩 。 在 本 章 中 ， 
我 们 将 看 看 tries 树 (有 序 的 树 数据 结构 ) 和 DAWG， 后 者 能 够 把 一 个 1.1GB 的 字 
符 串 集 压缩 到 只 有 254MB， 而 几乎 不 改变 性 能 。 第 三 种 途径 就 是 用 空间 来 和 准确 
性 做 交换 。 对 于 这 种 途径 , 我 们 将 看 看 近似 计数 和 近似 集合 成 员 , 相 比 它们 所 对 应 
的 精确 算法 大 大 减少 了 RAM 的 使 用 。 

对 内 存 使 用 要 考虑 的 一 点 就 是 “数据 有 质量 ”的 观念 。 数 据 越 多 ， 移 动 起 来 就 越 
慢 。 如 果 你 能 够 音 青 于 使 用 内 存 ， 你 的 数据 将 可 能 消耗 得 更 快 ， 因 为 它 在 总 线 上 
移动 得 更 快 ， 而 且 更 多 的 数据 将 被 纳入 有 限 的 缓存 中 。 如 果 你 需要 把 它 存 人 离线 
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存储 中 (例如 ， 一 个 硬盘 驱动 或 者 一 个 远程 的 数据 集群 )， 那 么 它 会 以 慢 得 多 的 
速度 来 传输 进 你 的 机 器 中 。 设 法 选择 合适 的 数据 结构 ， 这 样 你 的 所 有 数据 都 能 够 
纳入 一 人 台 机 器 中 。 


对 Python 对 象 所 使 用 的 RAM 量 做 统计 环 手 得 令 人 吃惊 ,我 们 不 必 知 道 对 象 在 幕后 
是 如 何 被 表示 的 , 如 果 我 们 请 求 操作 系统 所 使 用 的 字 节 数 , 它 将 告诉 我 们 分 配给 进 
程 的 总 量 。 在 这 两 种 情况 下 ， 我 们 都 不 能 精确 地 查看 每 个 单独 的 Python 对 象 占用 
的 内 存 是 怎样 加 入 总 量 中 的 。 


因为 一 些 对 象 和 库 无 法 报告 它们 内 部 所 分 配 的 所 有 字 节 (或 者 它们 包装 了 完全 没有 
报告 自己 的 内 存 分 配 的 外 部 库 )， 这 应 当 是 一 种 最 佳 猪 测 的 情况 。 在 本 章 中 所 探索 
的 方法 能 够 帮助 我 们 决定 最 好 的 方式 来 表示 我 们 的 数据 , 从 而 整体 上 使 用 了 更 少 的 
RAM。 


11.1 基础 类 型 的 对 象 开销 高 


使 用 存储 着 几 百 上 千 项 的 类 似 于 1ist 的 容器 来 工作 是 普遍 的 。 一 旦 你 存储 大 数 
据 ，RAM 的 使 用 就 变 成 了 一 个 问题 。 


一 个 具有 100000000 项 的 list 大 概要 消耗 760MB, 这 是 在 假设 所 有 条 目 都 是 相同 对 
象 的 前 提 下 。 如 果 我 们 存储 了 100000000 个 不 同 项 (例如 ， 唯 一 的 整数 )， 那 么 我 
们 得 期 望 使 用 GB 数量 级 的 RAM| 每 一 个 唯一 的 对 象 都 有 一 个 内 存 开 销 。 


在 例 11-1 中 ， 我 们 在 一 个 1ist 中 存储 了 许多 0 整数 。 如 果 你 存储 了 100000000 个 
任意 对 象 的 引用 〈 无 论 对 象 的 实例 有 多 大 ) ， 你 还 是 期 望 要 看 见 大 约 760MB 的 内 存 
开销 ， 因 为 1ist 存储 着 对 象 的 引用 (不 是 对 象 的 拷贝 )。 回 头 参 考 下 2.9 节 来 回忆 
怎样 使 用 memory profile; 在 这 里 ， 我 们 使 用 %load ext memory profile 
来 把 它 作 为 一 个 新 的 魔法 函数 载 人 进 耻 ython。 


例 11-1 测量 在 一 个 list 中 的 100000000 个 相同 整数 的 内 存 使 用 

In [1]: %load ext memory profiler # load the gmemit magic function 

In [2]: Smemit [0]*int (le8) 

peak memory: 790.64 MiB, increment: 762.91 MiB 
对 于 下 个 例子 ， 我 们 将 从 一 个 全 新 的 shell 开始 。 就 如 在 例 11-2 中 对 memit 的 首 
次 调用 所 揭示 的 那样 ， 一 个 全 新 的 Python shell 大 约 消 耗 了 20MB 的 RAM。 接 下 
来 ， 我 们 可 以 创建 一 个 具有 100000000 个 唯一 数字 的 临时 list。 这 总 共 大 约 消耗 
3.1GB。 
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‘I 


全 


警 
信 在 运行 的 进程 中 ， 内 存 能 够 被 缓存 起 来 ， 所 以 当 使 用 memit 来 剖析 
| 时 ， 先 退出 再 重启 Python shell 总 是 更 安全 的 方式 。 


在 memit 命令 结束 后 ， 临 时 list 被 释放 了 。 最 终 对 memit 的 调用 显示 内 存 使 用 停 
留 在 大 约 2.3GB。 
问题 
在 读 取 答案 之 前 ,为 什么 Python 进程 还 是 可 能 要 保持 2.3GB 的 RAM? 
在 后 台 留 下 什么 东西 了 吗 ， 即 使 list 已 经 到 垃圾 收集 器 中 去 了 ? 





例 11-2 ”测量 一 个 list 中 100000000 个 不 同 整数 的 内 存 使 用 
# we use a new IPython shell so we have a clean memory 


In [1]: %load ext memory profiler 

In [2]: Smemit # show how much RAM this process is consuming right now 
peak memory: 20.05 MiB, increment: 0.03 MiB 

In [3]: Smemit [n for n in xrange (int (1e8))] 

peak memory: 3127.53 MiB, increment: 3106.96 MiB 

In [4]: Smemit 

peak memory: 2364.81 MiB, increment: 0.00 MiB 


100000000 个 整数 对 象 占据 了 2.3GB 的 绝 大 部 分 ， 即 使 它们 不 再 被 使 用 了 。Python 
缓存 了 类 似 整 数 的 基础 对 象 为 以 后 所 用 。 在 一 个 RAM 有 限 的 系统 中 ， 这 会 造成 问 
题 ， 所 以 你 应 该 注意 到 这 些 基 础 类 型 可 能 会 构建 在 缓存 中 。 


























在 例 11-3 中 一 个 后 续 的 memit 创建 了 另 一 个 含有 100000000 项 的 list， 消 耗 了 大 
约 760MB， 在 这 个 回调 期 间 总 体 占用 了 大 约 达 到 3.1GB 的 内 存 分 配 。760MB 单单 
为 容器 所 用 ， 因 为 底层 的 Python 整数 对 象 已 经 存在 一 一 它们 在 缓存 中 ， 这 样 就 可 
以 被 复 用 。 

例 11-3 再 次 测量 在 一 个 list 中 的 100000000 个 不 同 整数 的 内 存 使 用 


In [5]: Smemit [n for n in xrange (int (1e8))] 
peak memory: 3127.52 MiB, increment: 762.71 MiB 


接 下 来 我 们 将 看 到 我 们 能 够 使 用 array 模块 来 以 更 为 廉价 的 方式 存储 100000000 
个 整数 。 

Array 模块 以 廉价 的 方式 存储 了 许多 基础 对 象 

Array 模块 高 效 地 存储 了 类 似 于 整数 、 浮 点 数 和 字符 的 基础 类 型 ， 但 没有 复数 或 
者 类 。 它 创建 了 一 个 连续 的 RAM 块 来 保存 底层 数据 。 
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在 例 11-4 中 ,我 们 把 100000000 个 整数 (每 个 8 字 节 ) 分 配 到 一 个 连续 的 内 存 块 。 
总 体 上 ， 进 程 大 约 消耗 了 760MB。 这 种 方式 和 之 前 唯一 整数 列表 的 方式 之 间 的 差 
别 是 2300MB - 760MB == 1.5GB。 这 是 一 个 对 RAM 的 巨大 节约 。 
































例 11-4 构建 一 个 使 用 760MB 的 RAM 的 具有 100000000 个 整数 的 数组 


In [1]: %$load ext memory profiler 

In [2]: import array 

In [3]: Smemit array.array('l1l', xrange (int (1e8))) 
peak memory: 781.03 MiB, increment: 760.98 MiB 








In [4]: arr = array.array('1') 
In [5]: arr.itemsize 
oats 8 








注意 在 array 中 的 唯一 数字 不 是 Python 对 象 ， 它 们 在 array 中 是 字 节 。 如 果 我 
们 要 解 引用 它们 中 任何 一 个 ， 那 么 一 个 新 的 Python int 对 象 将 会 被 构建 。 如 果 你 想 
要 在 它们 之 上 来 做 计算 , 不 会 发 生 整体 上 的 节省 , 但 是 如 果 你 想 要 把 数组 传递 给 一 
个 外 部 进程 或 者 只 使 用 一 些 数据 ,你 应 该 看 到 相 比 使 用 一 个 整数 的 1ist 来 说 , 大 
大 节约 了 RAM。 


备 忘 

如 果 你 正 使 用 Cython 在 一 个 大 数字 数组 或 大 数字 和 矩阵 上 工作 ， 并 且 
你 不 想 要 对 numpy 的 外 部 依赖 ， 提 醒 你 可 以 把 你 的 数据 存储 在 一 个 
array 中 ,并 把 它 传 进 Cython 来 做 处 理 ， 这 样 没有 额外 的 内 存 开 销 。 











array 模块 使 用 一 个 有 限 的 具有 各 种 不 同 精度 的 datatype 集 (请 看 例 11-5) 来 工 
作 。 选 择 你 需要 的 最 小 精度 ， 这 样 你 就 会 仅仅 按 需 分 配 RAM ， 而 不 是 分 配 超出 需 
求 更 多 的 RAM。 要 注意 字 节 的 大 小 是 平台 相关 的 一 一 这 里 的 大 小 参考 32 位 的 平台 
( 它 声 明了 最 小 尺寸 )， 而 我 们 却 是 在 一 台 64 位 的 笔记 本 电脑 上 运行 例子 的 。 


列 11-5 由 array 模块 所 提供 的 基本 类 型 

In [5]: array? # IPython magic, similar to help (array) 
Type: module 

String Form:<module 'array' (built-in)> 










































































MA 


Docstring: 








This module defines an object type which can efficiently represent 

an array of basic values: characters, integers, floating point 
numbers. Arrays are sequence types and behave very much like lists, 
except that the type of objects stored in them is constrained. The 
type is specified at object creation time by using a type code, which 
is a single character. The following type codes are defined: 


Type code C Type Minimum size in bytes 
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rec! 
ip' 
iB' 
ru 
hy 
iH' 
如 本 措 
[| 
0 
NE 
LR 
id' 


character 

signed integer 
unsigned integer 
Unicode character 
signed integer 
unsigned integer 
signed integer 
unsigned integer 








signed integer 








unsigned integer 
floating point 


0s .Hs ,7 


floating point 


The constructor is: 


arrayl( 
numpy 具有 能 够 持 有 更 广泛 包 
有 更 多 的 控制 ， 并且 你 还 可 以 使 用 复数 和 datetime 对 象 。 一 个 complex128 对 








typecode [, initializer]) -- create a new array 








尔 对 每 一 项 的 字 节 的 数量 











象 采用 每 项 16 个 字 节 : 每 项 是 一 个 8 字 节 的 浮 点 数 对 。 你 不 能 在 一 个 Python 数组 
中 存储 复杂 的 对 象 , 但 是 它们 在 numpy 中 是 自由 使 用 的 。 如 果 你 是 一 个 numpy 的 


























新 手 ， 请 回去 看 看 第 6 章 。 


在 例 11-6 中 ， 











你 能 看 见 numpy 数组 的 男 一 个 特性 一 一 你 可 以 查询 项 的 数量 、 每 个 

















销 (一 般 
例 11-6 


下 让 过 


训话 





基础 类 型 的 大 小 以 及 底层 RAM 块 的 组 合 存储 总 量 。 注 意 这 不 包括 Python 对 象 的 开 
青 况 下 ， 相 比 你 存储 在 数组 中 的 数据 而 言 ， 这 是 微不足道 的 )。 

















在 numpy 数组 中 存储 更 多 的 复杂 类 型 


Sload ext memory profiler 


: import numpy as np 


smemit arr=np.zeros (le8, np.complex128) 


peak memory: 1552.48 MiB, increment: 1525.75 MiB 


In 








~]~OONOU OO 省 心 


: arr.Size # same as len (arr) 

: 100000000 

: arr.nbytes 

: 1600000000 

: arr.nbytes/arr.size # bytes Per item 
Ra 

: arr.itemsize # another way of checking 


16 


使 用 一 个 常规 的 list 在 RAM 中 来 存储 许多 数字 比 使 用 一 个 array 对 象 要 低 效 
得 多 。 应 当 发 生 更 多 的 内 存 分 配 , 每 一 次 都 花费 时 间 。 在 更 大 的 对 象 上 也 发 生 了 运 
算 , 对 缓存 更 不 友好 ,整体 上 使 用 了 更 多 的 RAM ,这 样 一 来 可 用 于 其 他 程序 的 RAM 


就 更 少 了 
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无 论 如 何 ， 如 果 你 在 Python 的 array 内 容 上 做 任何 工作 ， 基 础 类 型 可 能 被 转换 成 
临时 对 象 , 抵消 了 它们 的 收益 。 当 和 其 他 进程 通信 时 把 它们 当成 数据 存储 来 使 用 是 
array 的 一 个 很 棒 的 使 用 场景 。 


如 果 你 正在 做 重量 级 的 数字 和 运算， 那么 numpy 数组 几乎 肯定 是 一 个 更 好 的 选择 ， 
因为 你 得 到 了 更 多 的 datatype 选项 和 许多 专业 而 快速 的 函数 。 如果 你 想 要 让 你 的 项 
目 有 更 少 的 依赖 性 ， 你 可 能 选择 避 开 numpy， 尽 管 Cython 和 Pythran 用 array 和 
numpy 数组 同样 都 工作 得 好 。Numba 只 用 numpy 数组 来 工作 。 


Python 提供 了 一 些 其 他 工具 来 理解 内 存 使 用 ， 就 如 我 们 将 要 在 下 一 节 中 看 到 的 
那样 。 


11.2 理解 集合 中 的 RAM 使 用 


你 可 能 想 知道 你 是 否 能 够 请 求 Python 关于 每 个 对 象 所 使 用 的 RAM 大 小 。Python 
的 sys .getsizeof (obj) 调 用 会 告诉 我 们 一 些 关 于 对 象 所 使 用 的 内 存 情况 ( 绝 大 
多 数 而 不 是 全 部 对 象 提 供 了 这 个 调用 )。 如 果 你 以 前 没有 见 过 ， 那 么 提醒 一 下 它 不 
会 给 你 所 期 待 的 关于 容器 的 答案 | 

让 我 们 通过 查看 一 些 基 础 类 型 来 开始 ,在 Python 中 的 int 是 一 个 可 变 尺寸 的 对 象 ， 
它 起 始 于 一 个 常规 的 整数 ， 如 果 你 计数 超过 sys .maxint (在 Ian 的 64 位 笔记 本 
电脑 上 ， 这 个 值 是 9223372036854775807) ， 它 就 会 转变 为 一 个 长 整数 。 


作为 一 个 常规 的 整数 ， 它 占用 24 字 节 (对象 有 许多 开销 )， 而 作为 长 整数 ， 它 消耗 
36 字 市 : 


















































In [1]: sys.getsizeof (int()) 
Out[1]: 24 

In [2]: sys.getsizeof (1) 

Out [2]: 24 

In [3]: n=sys.maxint+1 

In [4]: sys.getsizeof (n) 

Out [4]: 36 


我 们 可 以 对 byte string 做 同样 的 检查 。 一 个 空 字符 串 消耗 37 字 节 ， 每 一 个 多 加 的 
字符 增加 了 1 字 节 的 开销 : 














In [21]: sys.getsizeof (pb"") 

Ut [2 ] 3 

In [22]: sys.getsizeof (pbp"a") 

Out[22]: 38 

In [23]: sys.getsizeof (b"ab") 
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Out E23 39 
In [26]: sys.getsizeof (bp"cde") 
Out[26]: 40 


当 我 们 使 用 一 个 列表 时 ， 我 们 看 见 了 不 同 的 表现 。getsizeof 没有 对 列表 的 内 容 
计数 ,仅仅 是 列表 自身 的 开销 。 一 个 空 列表 消耗 72 字 节 ,在 一 台 64 位 笔记 本 电脑 
上 ， 列 表 中 的 每 一 项 占用 了 8 个 额外 字 节 : 


# goes up in 8-byte steps rather than the 24 we might expect! 








In [36]: sys.getsizeof([]) 
Out [36] : 72 

In [37]: sys.getsizeof([1]) 
out [37]: 80 

In [38]: sys.getsizeof([1,2]) 
Out[38]: 88 











如 果 我 们 使 用 byte string， 这 就 更 明显 了 一 一 我 们 期 望 你 看 到 比 getsizeof 所 报 
告 的 要 大 得 多 的 开销 。 











In [40]: sys.getsizeof([b""]) 

Out[40]: 80 

In [41]: sys.getsizeof([b"abcdefghijklm"]) 
Out[41]: 80 

In [42]: sys.getsizeof([b"a", b"b"]) 

Out [42]: 88 





getsizeof 只 报告 了 一 部 分 开销 ， 常 常 仅 仅 是 父 对 象 的 开销 。 就 如 之 前 所 提示 的 
那样 ， 它 也 不 总 是 被 实现 了 的 ， 所 以 可 以 作 有 限 的 用 途 。 


一 个 轻 量 级 的 更 好 的 工具 是 asizeof， 它 会 遍历 容器 的 层级 结构 并 对 它 所 发 现 的 
每 个 对 象 做 出 最 好 的 猜测 ， 给 整体 大 小 增加 了 尺寸 。 注 意 它 的 速度 相当 慢 。 


除了 依赖 于 猜测 和 假设 之 外 ， 它 也 不 能 计算 幕后 的 内 存 分 配 (例如 , 一 个 包装 了 C 
库 的 模块 可 能 没有 报告 在 C 库 中 所 分 配 的 字 节 数 )。 最 好 把 它 用 来 作为 一 个 指导 。 
我 们 倾向 于 使 用 memit ， 因 为 它 给 了 我 们 在 问题 机 器 上 的 准确 的 内 存 使 用 计数 。 


你 如 下 所 示 使 用 asizeof: 


In [1]: Srun asizeof.py 
In [2]: asizeof([b"abcdefghijkim"]) 
Outl[2]: “136 


我 们 可 以 检查 它 对 一 个 大 列表 所 做 的 估算 一 一 这 里 我 们 将 使 用 100000000 个 整数 : 

































































# this takes 30 seconds to run! 
In [1]: asizeof([x for x in xrange(10000000)]) # le7 integers 
Out[1]: 321528064 
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我 们 可 以 通过 使 用 memit 来 查看 进程 如 何 增长 来 验证 这 个 估算 。 在 这 种 情况 下 ， 
数字 是 非常 接近 的 

In [2]: Smemit([x for x in xrange(10000000)]) 

Peak memory: 330.64 MiB, increment: 310.62 MiB 


asizeof 一 般 要 比 使 用 memit 来 得 更 慢 ， 但 是 当 你 分 析 小 对 象 时 ，asizeof 是 
可 以 用 上 的 。memit 可 能 对 真实 世界 的 应 用 来 说 更 加 有 用 ， 因 为 进程 的 实际 内 存 
使 用 是 测量 出 来 的 ， 而 不 是 推导 出 来 的 。 
























































11.3 字 节 和 Unicode 的 对 比 


转换 到 Python 3.3+ 的 一 个 令 人 信服 的 理由 就 是 它 对 Unicode 对 象 的 存储 明显 要 比 
在 Python 2.7 中 少 。 如 果 你 主要 处 理 许多 字符 串 ， 并 且 它 们 吃 掉 了 很 多 RAM， 一 
定 要 考虑 转移 到 Python 3.3 中 去 。 这 样 你 就 绝对 免费 地 得 到 了 对 RAM 的 节省 。 


在 例 11-7 中 ,我 们 可 以 看 到 100000000 个 字符 的 序列 被 构建 成 字符 集合 (这 与 在 
Python 2.7 中 的 常规 的 str 相同 ) 以 及 被 构建 成 Unicode 的 对 象 。Unicode 变 体 占 
用 了 多 达 4 倍 的 RAM， 每 一 个 Unicode 字符 耗费 了 相同 的 更 高 的 代价 ， 而 不 管 表 
示 底 层 数据 所 需 的 字 节 的 数量 是 多 少 。 


例 11-7 Unicode 对象 在 Python 2.7 中 是 代价 高 昂 的 


In [1]: g%l1oaq_ext memory profiler 

In [2]: Smemit b"a" * int (le8) 

peak memory: 100.98 MiB, increment: 80.97 MiB 
In [3]: Smemit u"a" * int (le8) 

peak memory: 380.98 MiB, increment: 360.92 MiB 


Unicode 对 象 的 UTF-8 编码 为 每 个 ASCII 字符 使 用 一 个 字 节 ， 而 为 更 少见 到 的 
字符 使 用 了 更 多 的 字 节 。Python 2.7 为 每 一 个 Unicode 字符 使 用 了 相同 数量 的 字 
节 数 , 而 不 管 字 符 的 出 现 率 。 如果 你 对 Unicode 编码 和 Unicode 对 象 的 对 比 没有 
把 握 ， 那 么 请 去 看 看 Net Batchelder 的 “实践 Unicode， 或 者 是 ， 我 该 如 何 结 束 
痛苦 ? ” 


从 Python 3.3 开始 ， 多 亏 了 PEP 393， 我 们 具有 了 灵活 的 Unicode 表示 。 它 通过 观 
察 字 符 串 中 的 字符 范围 , 并 且 尽 可 能 使 用 更 少 的 字 节 数 来 表示 更 低 阶 的 字符 的 方式 
来 工作 。 

在 例 11-8 中 ,你 可 以 见 到 字 节 的 开销 和 ASCI 字符 的 Unicode 版 本 的 开销 是 一 样 的 ， 
并 日 使 用 了 非 ASCII 的 字符 (sigma) 仅仅 翻 倍 地 使 用 了 内 存 一 一 这 还 是 比 Python 2.7 
中 的 境遇 要 更 好 。 
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例 11-8 Unicode 对 象 在 Python 3.3+ 中 要 远 远 更 低廉 
Python 3.3.2+ (default, Oct 9 2013, 14:50:09) 
IPython 1.2.0 -- An enhanced Interactive Python. 





In [1]: %load ext memory profiler 

In [2]: Smemit b"a" * int(1le8) 

Peak memory: 91.77 MiB, increment: 71.41 MiB 
In [3]: Smemit u"a" * int (le8) 

peak memory: 91.54 MiB, increment: 70.98 MiB 
In [4]: Smemit u">" * int(le8) 

peak memory: 174.72 MiB, increment: 153.76 MiB 


在 Python 3.3 默认 Unicode 对 象 的 前 提 下 ， 如 果 你 在 许多 字符 串 数 据 上 工作 ， 你 几 
乎 肯定 会 受益 于 这 个 升级 。 缺 少 低廉 的 字符 串 存储 对 一 些 人 来 说 是 在 早期 Python 
3.1 期 间 遇 到 的 一 个 障碍 ， 但 是 现在 随 着 PEP 393， 这 完全 不 是 一 个 问题 。 


11.4 高 效 地 在 RAM 中 存储 许多 文本 


使 用 文本 的 一 个 普遍 的 问题 就 是 它 占用 了 许多 RAM 一 一 但 是 如 果 我 们 想 要 测试 一 
下 我 们 是 否 在 之 前 见 到 过 字符 串 或 对 它们 的 频率 进行 计数 , 那么 让 它们 在 RAM 中 
是 方便 的 , 而 不 是 让 它们 从 磁盘 中 来 回 换 页 。 以 自然 的 方式 存储 字符 串 是 代价 昂贵 
的 ， 但 是 trie 树 和 有 向 无 环 的 单词 图 (DAWGs) 能 够 被 用 来 压缩 表示 它们 ， 然 而 
又 允许 进行 快速 的 操作 。 


这 些 更 高 级 的 算法 能 够 让 你 显著 节约 RAM 的 使 用 量 ,这 意味 着 你 可 能 不 需要 扩展 到 
更 多 的 服务 器 上 ,对 于 生产 系统 有 巨大 的 节省 。 在 本 节 中 , 我 们 将 看 看 使 用 trie 树 来 
压缩 一 个 字符 串 集 ， 从 耗费 1.1GB 下 降 到 254MB ， 而 仅 让 性 能 发 生 微小 的 变化 。 


对 于 这 个 例子 ,我 们 将 从 维基 百科 的 部 分 转 储 上 构建 而 来 .这 个 集合 包含 了 8545076 
个 唯一 的 符号 ,来 自 于 英语 维基 百科 的 一 部 分 ,在 磁盘 上 占用 了 111707546(111MB) 
之 多 。 

符号 从 它们 原来 的 文章 上 以 空格 符 来 分 割 。 它 们 是 具有 可 变 长 度 的 ， 并 且 包 含 了 
Uncode 字符 和 数字 。 它 们 看 起 来 就 像 : 
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我 们 将 使 用 这 个 文本 例子 来 测试 我 们 如 何 能 快速 地 构建 持 有 每 个 唯一 单词 实例 的 
数据 结构 ， 然 后 我 们 将 看 看 如 何 能 快速 地 查询 已 知 的 单词 (我 们 将 使 用 不 常见 的 
“Zwiebel”, 来 自 于 画家 Alfred Zwiebel)。 这 让 我 们 发 问 ,“ 我 们 以 前 曾 讲 过 Zwiebel 
吗 ? ”符号 寻找 是 一 个 普遍 的 问题 ， 要 能 够 快速 地 做 出 来 是 重要 的 。 
万 
当 你 在 你 自己 的 问题 上 尝试 这 些 容器 时 ， 要 注意 你 可 能 会 看 到 不 同 的 
表现 。 每 种 容器 以 不 同 的 方式 构建 了 自己 内 部 的 结构 ， 传 递 不 同类 型 
的 符号 可 能 会 影响 结构 的 构建 时 间 ， 而 且 不 同 长 度 的 符号 会 影响 查询 
时 间 。 总 是 要 以 系统 的 方法 来 做 测试 。 


在 800 万 个 符号 上 尝试 这 些 方法 

图 11-1 显示 了 使 用 一 些 容器 存储 了 800 万 个 符号 的 文本 文件 (111MB 原始 数据 )， 这 
些 容器 就 是 我 们 在 本 节 中 将 要 讨论 的 ,。 邓 轴 显示 了 每 个 容器 的 RAM 使 用 情况 ,了 轴 跟 
踪 了 查询 时 间 , 每 个 点 的 大 小 与 构建 结构 所 花 的 时 间 有 关 ( 更 大 的 点 意味 着 花费 更 久 )。 
就 如 我 们 在 这 张 图 表 中 所 能 见 到 的 那样 , set 和 DAWG 的 例子 使 用 了 许多 RAM 。 List 


的 例子 内 存 开销 大 而 且 又 慢 。Marisa trie 树 和 HAT trie 树 的 例子 对 于 这 个 数据 集 是 最 
有 效 的 ， 它 们 使 用 了 其 他 方法 四 分 之 一 的 RAM， 而 几乎 没有 改变 查找 速度 。 












































存储 8545076 个 符号 的 容器 表现 大 小 代表 构建 时 间 〈 越 小 越 好 ) 


0.025 


list_bisect 
0.020 


越 小 越 好 
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Marisa Trie 
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HAT Trie 
0.005 a] 
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11-1 DAWG 和 tries 树 与 内 置 容器 的 对 比 
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图 表 没 有 显示 对 没有 排序 方法 的 简单 List 的 查找 时 间 ， 我 们 将 马上 介绍 ， 因 
为 它 花 费 得 太 久 了 。datrie 的 例子 没有 在 绘图 中 包含 , 因为 它 会 产生 一 个 段 错 
误 (我 们 已 经 在 过 去 的 男 一 项 任务 中 有 这 个 问题 )。 当 它 工作 时 , 它 是 快速 而 紧 
凑 的 ， 但 是 它 能 够 展现 出 无 法 控制 的 难以 做 出 解释 的 构建 时 间 。 因 为 它 能 比 其 
他 方法 更 快 ， 所 以 值得 把 它 包 括 进 来 ， 但 是 显而易见 ， 你 将 要 在 你 的 数据 上 彻 
底 测 试 它 。 


请 注意 你 必须 要 使 用 多 种 不 同 的 容器 来 测试 你 的 问题 一 每 一 个 容器 有 不 同 的 权 
衡 之 处 ， 侈 如 构建 时 间 和 API 的 灵活 性 。 


接 下 来 ， 我 们 将 构建 一 个 进程 来 测试 每 个 容器 的 行为 。 












































1. list 

让 我 们 从 最 简单 的 方法 开始 。 我 们 会 把 我 们 的 符号 加 载 进 一 个 1ist 中 ,接着 使 用 
一 个 0 (n) 的 线性 搜索 来 查询 它 。 我 们 不 能 在 已 经 提 到 过 的 大 型 例子 中 这 样 做 一 一 
搜索 花费 了 太 久 的 时 间 一 一 所 以 我 们 将 用 一 个 小 得 多 的 例子 (499048 个 符号 ) 来 
演示 技巧 。 


在 接 下 来 的 每 一 个 例子 中 ， 我 们 都 使 用 一 个 产生 器 text_example.readers， 
用 来 同时 从 输入 文件 中 抽取 出 Unicode 符号 。 这 意味 着 读 取 进 程 只 使 用 了 很 少量 的 
RAM: 























tl1 = time.time() 





words = [w for w in text example.readers] 

print "Loading {} words".format (len (words)) 

t2 = time.time() 

print "RAM after creating list {:0.1f}MiB, took {:0.1f}s". 
format (memory profiler.memory usage() [0]，t2 - t1) 


我 们 对 能 够 以 多 快 的 速度 查询 到 这 个 列表 感 兴趣 。 理想 情况 下 , 我 们 想 要 找到 一 个 
容器 来 存储 我 们 的 文本 并 且 允 许 我 们 没有 任何 代价 地 来 查询 和 修改 它 。 为 了 查询 
它 ， 我 们 使 用 timeit 来 对 已 知 的 单词 进行 数 次 查找 : 


assert u'Zwiebel' in words 











time cost = sum(timeit.repeat (stmt="u'Zwiebel' in words", 
setup="from main _ import words", 
number=1, 
repeat=10000)) 

print "Summed time to lookup word {:0.4f}s".format (time cost) 


我 们 的 测试 脚本 报告 大 约 59MB, 被 用 来 把 原来 SMB 的 文件 作为 一 个 列表 来 存储 ， 
查找 时 间 是 86 秒 : 
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RAM at start 10.3MiB 

Loading 499048 words 

RAM after creating list 59.4MiB, took 1.7s 
Summed time to lookup word 86.1757s 


把 文本 存储 进 一 个 没有 排序 的 list 明显 是 个 糟糕 的 主意 。0 (n) 的 查找 时 间 是 
代价 高 昂 的 ， 内 存 使 用 也 同样 如 此 。 这 是 所 有 情况 中 最 糟糕 的 ! 

我 们 能 够 通过 对 List 做 排序 以 及 通过 bisect 模块 使 用 二 分 查找 法 来 改进 查找 时 
间 。 i en 这 给 了 我 们 一 个 合理 的 下 限 。 在 例 11-9 中 我 们 对 排序 
列表 所 花费 的 时 间 进 行 计时 。 在 这 里 我 们 切换 到 更 大 的 有 854506 个 符号 的 集合 。 


例 11-9 对 为 了 使 用 bisect 而 做 准备 的 排序 操作 进行 计时 





















































tl = time.time() 

words = [w for w in text example.readers] 
print "Loading {} words" .format (len (words)) 
t2 = time.time() 


print "RAM after creating list {:0.1f}MiB, took {:0.1f}s". 
format (memory profiler.memory usage() [0], t2 - t1) 

print "The list contains {} words".format (len (words)) 
words .sort() 

t3 = time.time() 

print "Sorting list took {:0.1f}s".format (t3 - t2) 


接 下 来 我 们 像 以 前 一 样 做 相同 的 查找 ， 但 是 使 用 额外 的 index 方法 ， 它 使 用 了 


bisect: 

















import bisect 


def index(a, x): 
"Locate the leftmost Value exactly equal to x' 
i = bisect.bisect left(a x) 
if i != len(a) and a[il == x: 
return i 
raise ValueError 





time cost = sum(timeit.repeat (stmt="index (words, u'Zwiebel')", 
setup="from main import words, index", 
number=1, 
repeat=10000)) 


在 例 11-10 中 ， 我 们 看 到 RAM 的 使 用 比 以 前 要 大 得 多 ， 因 为 我 们 明显 装载 进 了 更 
多 的 数据 。 排 序 进一步 用 去 了 16 秒 ， 而 累计 的 查找 时 间 却 是 0.02 秒 。 


例 11-10 对 在 一 个 排序 列表 上 使 用 bisect 进行 计时 
$ Python text example list bisect.py 

RAM at start 10.3MiB 

Loading 8545076 words 
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RAM after creating list 932.1MiB，took 31.0s 
The list contains 8545076 words 

Sorting list took 16.9s 

Summed time to lookup word 0.0201s 


























现在 我 们 有 了 一 个 对 字符 串 查找 计时 的 合理 的 基线 :RAM 使 用 必须 要 好 于 932MB， 


并 


2. 
使 


Se 





且 总 共 查 找 时 间 应 该 比 0.02 秒 更 少 。 





set 


用 内 置 的 set 看 起 来 或 许 是 处 理 我 们 任务 的 最 明显 的 方法 了 。 在 例 11-11 中 ， 
t 在 一 个 散 列 结构 中 存储 了 每 一 个 字符 串 (如 果 你 需要 清醒 一 下 , 请 看 第 4 章 )。 





















































检查 成 员 是 快速 的 ， 但 是 每 一 个 字符 串 必 须 分 开 存 储 ， 在 RAM 上 代价 昂贵 。 

















例 11-11 使 用 一 个 set 来 存储 数据 


words_set = set(text example.readers) 








就 如 我 们 在 例 11-12 中 所 见 的 那样 ，set 比 1ist 使 用 了 更 多 的 RAM; 无 论 如 何 ， 
它 给 了 我 们 一 个 非常 快速 的 查询 时 间 ， 而 不 需要 一 个 额外 的 index 函数 或 者 一 个 中 
间 的 排序 操作 。 








例 11-12 运行 set 的 例子 

$ Python text example set.py 

RAM at start 10.3MiB 

RAM after creating set 1122.9MiB, took 31.6s 
The set contains 8545076 words 

Summed time to lookup word 0.0033s 





如 果 RAM 不 昂贵 ， 那 么 这 可 能 是 最 合理 的 首选 方法 。 
然而 ,我 们 现在 已 经 丧失 了 原来 数据 的 顺序 。 如 果 顺 序 对 你 是 重要 的 ， 提 示 你 可 以 


把 字符 串 作 为 键 存储 在 字典 里 ， 每 个 值 就 是 和 原来 的 读 取 顺序 相关 的 索引 。 这 样 ， 





























你 就 能 向 字典 查询 键 是 否 存在 ， 并 请 求 它 的 索引 。 


3. 

















更 有 效 的 树 结构 


让 我 们 介绍 一 组 更 高 效 地 使 用 RAM 来 表示 字符 串 的 算法 。 








来 


[9 


tap 




















自 维 基 共 享 资源 的 图 11-2 展示 了 4 个 单词 在 trie 树 和 DAWG 中 的 不 同 表示 : 
” “taps”、“top” 和 “tops”。DAFSA 是 DAWG 的 另 一 个 名 称 。 使 用 一 个 list 














或 者 set， 这 些 单词 中 的 每 一 个 都 作为 一 个 独立 的 字符 串 存 储 。DAWG 和 trie 树 共 
享 了 字符 串 的 公共 部 分 ， 所 以 用 到 的 RAM 更 少 。 


© 























这 个 例子 取 自 关于 确定 性 无 环 有 限 状态 机 (DAFSA) 的 维基 文章 。DAFSA 是 DAWG 的 另 一 个 名 称 。 附 















































随 的 图 片 来 自 于 维基 共享 资源 。 
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DAWG 和 trie 树 的 主要 区 别 是 trie 树 只 共享 公共 前 级 ,人 然而 DAWG 共享 公共 前 级 
和 后 级。 在 有 很 多 公共 单词 前 级 和 后 级 的 语言 中 (就 像 英 语 )， 这 样 能 减少 很 多 
重复 。 

精确 的 内 存 表现 取决 于 你 的 数据 结构 。 典 型 说 来 ， 一 个 DAWG 不 能 分 配 一 个 值 给 
键 , 这 归 因 于 从 字符 串 的 开始 到 结束 之 间 的 多 条 路 径 , 但 是 展示 在 这 里 的 版 本 能 够 
接受 一 个 值 映 射 。Trie 树 也 能 接收 一 个 值 映 射 , 有些 结构 不 得 不 在 开始 扫描 时 构建 ， 
其 他 的 则 能 在 任何 时 候 更 新 。 


这 些 结构 的 一 个 巨大 优势 就 是 它们 提供 了 一 个 公共 前 级 搜索 , 那 就 是 你 可 以 请 求 与 
你 提供 的 前 级 相同 的 所 有 单词 。 使 用 我 们 的 4 个 单词 列表 ， 当 搜索 “ta” 时 ， 结 
将 是 “tap” 和 “taps"。 而 且 ， 既 然 这 些 结果 是 通过 图 结构 所 发 现 的 ， 获 取 到 它们 
是 很 快速 的 。 例 如 ， 如 果 你 正 工作 于 DNA 方面 ， 使 用 trie 树 编辑 数 百 万 的 短 单词 
是 减少 RAM 使 用 的 一 种 有 效 方式 。 



















































































11-2 Trie 树 和 DAWG 结构 (图片 由 Chkno 提供 【CC BY-SA 3.0] ) 
在 下 面 的 小 节 中 ， 我 们 凑 近 看 一 看 DAWGSs、trie 树 和 它们 的 用 途 。 


4. 有 向 无 环 单词 图 (DAWG ) 
有 向 无 环 图 (MIT 授权 ) 企图 高 效 地 表示 共享 公共 前 绥 和 后 绥 的 字符 串 。 


在 例 11-13 中 ， 你 会 看 到 对 DAWG 的 很 简单 的 设置 。 对 于 这 个 实现 ，DAWG 在 创 
建 后 不 能 被 修改 , 它 读 取 了 一 个 迭代 器 来 立即 创建 自己 。 缺 少 创建 之 后 的 更 新 可 能 
对 你 的 使 用 场景 来 说 是 一 个 败笔 。 如 果 是 这 样 , 你 可 能 需要 研究 用 trie 树 来 取代 它 。 
DAWG 的 确 支持 丰富 的 查询 ， 包 括 前 级 查找 。 它 也 允许 持久 化 ， 并 且 支 持 把 整数 
索引 作为 值 与 字 节 及 记录 值 一 起 存储 起 来 。 
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例 11-13 使 用 DAWGI 来 存储 数据 


import dawg 


words dawg = dawg.DAWG (text example.readers) 


就 如 你 能 够 在 例 11-14 中 所 看 见 的 那样 ， 对 于 相同 组 的 字符 串 集 ， 它 比 之 前 的 set 
例子 仅仅 稍微 少 用 了 一 些 RAM。 更 类 似 的 输入 文本 将 会 产生 更 强大 的 压缩。 


例 11-14 使 用 DAWG 的 例子 

$ Python text example dawg.py 

RAM at start 10.3MiB 

RAM after creating dawg 968.8MiB, took 63.1s 
Summed time to lookup word 0.0049s 














5. Marisa trie 树 


Marisa trie 树 (LGPL 和 BSD 双 授 权 ) 是 一 个 使 用 Cython 绑 定 外 部 库 的 静态 trie 
树 。 因 为 它 是 静态 的 ， 它 在 创建 之 后 就 不 能 改动 。 它 像 DAWG 一 样 文 持 把 整数 索 
引 作 为 值 与 字符 值 及 记录 值 一 起 存储 。 
一 个 键 能 被 用 来 查询 一 个 值 ,反之 亦 然 .所 有 共享 了 相同 前 绥 的 键 能 被 高 效 地 找到 。 
tries 树 的 内 容 可 以 被 持久 化 。 例 11-15 图 示 了 使 用 一 个 Marisa trie 树 来 存储 我 们 的 
样本 数据 。 

例 11-15 使 用 Marisa trie 树 来 存储 数据 


import marisa trie 























words trie = marisa trie.Trie(text_ example.readers) 


在 例 11-16 中 ,我 们 可 以 看 到 相 比 DAWG 的 例子 ,在 RAM 存储 方面 有 显著 的 提高 ， 
但 是 整体 搜索 时 间 更 慢 一 点 。 


例 11-16 运行 Marisa trie 树 例 子 

$ Python text example trie.py 

RAM at start 11.0MiB 

RAM after creating trie 304.7MiB, took 55.3s 
The trie contains 8545076 words 

Summed time to lookup word 0.0101s 




















6. Datrie 树 

双 数 组 trie 树 ， 或 者 datrie (LGPL 授权 ) ， 使 用 了 预先 构建 的 字母 表 来 高 效 地 存储 
键 。 这 种 trie 树 能 够 在 创建 之 后 修改 ， 但 是 只 使 用 相同 的 字母 表 。 它 也 能 够 寻找 与 
所 提供 的 键 共享 前 级 的 所 有 键 ， 并 且 支 持 持 久 化 。 
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它 与 HAT trie 树 一 起 提供 了 最 快 的 查找 时 间 之 一 。 
当 使 用 datrie 树 来 做 维基 上 的 例子 以 及 做 以 往 的 DNA 表示 的 工作 时 ， 
它 有 一 个 变态 的 构建 时 间 。 与 其 他 用 几 秒 完成 构建 的 数据 结构 相 比 ， 
它 可 能 要 花费 几 分 钟 或 数 小 时 来 表示 DNA 字符 串 。 











datre 树 需 要 一 个 字母 表 来 呈现 给 构造 昂 数 ， 并 且 只 有 键 才 允许 使 用 这 个 字母 表 。 
在 我 们 的 维基 的 例子 中 ， 这 意味 着 我 们 需要 对 原始 数据 做 两 亡 扫 描 。 你 可 以 在 例 
11-17 中 看 到 这 种 情况 。 第 一 遍 扫 描 把 一 个 字母 表 的 字符 集 构建 成 一 个 set， 第 二 遍 
扫描 构建 trie 树 。 这 个 更 慢 的 构建 过 程 允许 更 快 的 查找 时 间 。 


例 11-17 使 用 一 个 双 数 组 trie 树 来 存储 数据 


import datrie 









































chars = set() 

for word in text example.readers: 
chars .update (word) 

trie = datrie.BaseTrie (chars) 





# having consumed our generator in the first chars pass, 

we need to make a new one 
reagders = text example.read words (text example.SUMMARIZED FILE) # new generator 
for word in readers: 

trie[word] = 0 


好 悲伤 ， 在 这 个 例子 数据 集 上 ，datrie 树 抛 出 了 一 个 段 错误 ， 所 以 我 们 不 能 显示 你 
的 计时 信息 。 我 们 选择 把 它 包含 进来 ,因为 在 其 他 的 测试 中 , 它 要 比 下 面 的 HAT Trie 
树 倾向 于 更 快 一 点 (但 是 RAM 使 用 要 低 效 一 点 )。 我 们 已 经 使 用 它 成 功 地 进行 了 
DNA 搜索 ， 所 以 如 果 你 有 一 个 静态 的 问题 并 且 它 可 以 工作 ， 你 可 以 对 它 能 很 好 地 
工作 具有 信心 。 如 果 你 的 问题 具有 可 变化 的 输入 ,无 论 如 何 , 这 可 能 不 是 一 个 合适 
的 选择 。 















































7. HAT trie 树 


HAT trie 树 (MIT 授权 ) 使 用 了 缓存 友好 的 表达 方式 从 而 在 现代 CPU 上 达成 非常 
快速 的 查找 。 它 能 够 在 创建 后 被 修改 ， 但 是 另 一 方面 具有 非常 有 限 的 API。 


对 于 简单 的 使 用 场景 , 它 具 有 很 棒 的 性 能 , 但 是 API 的 局 限 性 (例如 ,缺少 前 级 查 
找 ) 可 能 让 它 对 你 的 应 用 来 说 用 途 更 少 。 例 11-18 演示 了 在 我 们 的 例子 数据 集 上 使 
用 HAT trie 树 。 
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例 11-18 使 用 HAT trie 树 来 存储 数据 


import hat trie 


words trie = hat trie.Trie() 
for word in text example.readers: 
words trie[word] = 0 








就 如 你 能 在 例 11-19 中 所 见 的 那样 ，HAT trie 树 提供 了 我 们 的 新 数据 结构 中 最 快 的 


查 











找 时 间 , 以 及 卓越 的 RAM 使 用 。 它 在 API 上 的 局 限 意 味 着 它 的 使 用 受到 了 限制 ， 





























但 


8. 


是 如 果 你 只 是 需要 在 许多 字符 串 中 快速 查找 ， 那 么 这 可 能 是 你 的 解决 方案 。 


例 11-19 运行 HAT trie 例子 

$ python text example hattrie.py 

RAM at start 9.7MiB 

RAM after creating trie 254.2MiB, took 44.7s 
The trie contains 8545076 words 

Summed time to lookup word 0.0051s 











在 生产 系统 中 使 用 tries 树 (和 DAWGs) 





trie 树 和 DAWG 数据 结构 提供 了 良好 的 收益 ,但 是 你 还 是 必须 在 你 的 问题 上 对 它们 
做 基准 测试 ， 而 不 是 盲目 地 采用 它们 。 如 果 你 的 字符 串 上 有 重 受 的 序列 ， 那么 有 可 


人 台 已 
月 E 






































你 会 看 到 对 RAM 使 用 的 改进 。 














Tries 树 和 DAWGs 不 是 那么 知名 ,但 它们 在 生产 系统 上 却 提供 了 强大 的 收益 。 我 


们 


在 12.4 节 中 有 一 个 令 人 印象 深刻 的 成 功 故事 。 在 DapApps 〈 坐 落 在 UK 的 一 个 














Python 软件 工作 室 ) 的 Jamie Matthews 也 有 一 个 关于 在 客户 系统 中 使 用 trie 树 来 为 
客户 做 出 更 高 效 和 更 廉价 的 部 署 的 故事 : 











在 DabApps, 我 们 经 常设 法 处 理 复 杂 的 技术 架构 问题 , 通过 把 复杂 问题 划 
分 为 小 的 、 自 包含 的 组 件 , 一 般 使 用 HTTP 在 组 件 间 进行 网 络 通 信 来 做 到 。 
这 种 方式 (被 称 为 “面向 服务 的 ”或 者 “微服 务 ” 架 构 ) 有 各 种 益处 ， 包 
括 有 可 能 在 多 个 项 目 间 复 用 或 者 共享 单个 组 件 的 功能 。 





一 个 这 样 的 任务 就 是 做 邮编 的 地 理 编 码 ， 这 常常 是 我 们 面向 客户 的 项 目 中 
的 需求 。 这 个 任务 把 全 部 的 UK 邮编 (例如 :“BN11AG”) 转变 成 一 个 经 
纬度 的 坐标 对 , 从 而 使 得 应 用 可 以 执行 诸如 距离 测量 之 类 的 地 理 空间 计算 。 
在 它 的 最 底层 , 一 个 地 理 编码 数据 库 是 一 个 简单 的 字符 串 之 间 的 映射 ,能 
够 从 概念 上 被 表示 成 一 个 字典 。 字典 的 键 是 邮编 ,以 一 个 规范 的 形式 存储 
(“BN11AG”), 值 就 是 坐标 的 茶 种 表示 (我们 使 用 了 地 理 散 列 编码 ， 但 是 
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简洁 明了 地 来 说 ， 想 象 一 下 由 过 号 分 隔 的 一 对 ， 例如: “50.822921， 
-0.142871”)。 


在 UK 大约 有 170 万 个 邮编 就 如 上 面 所 描述 的 那样 ,简单 地 把 全 部 数据 
集 装 载 进 一 个 Python 字典 要 使 用 好 几 百 兆 字 节 的 内 存 。 使 用 Python 的 简 
单 序列 化 (pickle ) 格式 把 这 个 数据 结构 在 磁盘 上 做 持久 化 需要 一 个 不 可 
接受 的 大 量 的 存储 空间 。 我 们 知道 我 们 可 以 做 得 更 好 。 


我 们 实验 了 几 种 不 同 的 内 存 和 磁盘 存储 以 及 序列 化 格式 ,包括 把 数据 存储 
在 诸如 Redis 和 LevelDB 之 类 的 外 部 数据 库 中 ， 而 且 还 对 键 / 值 对 做 压缩 。 
最 终 我 们 偶然 想起 使 用 trie 树 的 主意 。Trie 树 在 表示 内 存 中 的 大 量 字符 串 
方面 极其 高 效 , 而 且 可 利用 的 开源 库 (我 们 选择 了 “marisa-trie 树 ”) 让 它 
们 变 得 非常 易于 使 用 。 


最 终 的 应 用 程序 , 包括 了 一 个 小 型 的 由 Flask 框架 所 构建 的 webAPI 使 用 了 
仅仅 30MB 的 内 存 来 表示 完整 的 UK 邮编 数据 库 ， 并 且 能 够 令 人 愉快 地 处 
理 大 量 的 邮编 查找 请 求 。 代 码 是 简单 的 ， 服 务 很 轻 量 化 ， 而 且 无 痛 部 署 和 
运行 在 诸如 Heroku 一 样 的 免费 主机 平台 上 , 而 且 不 需要 或 者 不 依赖 于 外 部 
数据 库 。 我 们 的 实现 是 开源 的 ， 在 https://github.com/j4mie/postcodeserver/ 
上 有 提供 。 





Jamie Matthews 


DabApps.com 技术 总 监 (UK ) 


11.5 ”使 用 更 少 RAM 的 穿 门 


一 般 来 说 ， 如 果 你 能 够 避免 把 它 放 进 RAM， 就 去 做 。 你 所 加 载 的 每 样 东 西 都 耗 
费 你 的 RAM。 你 可 能 会 加 载 你 的 部 分 数据 ， 例 如 使 用 一 个 内 存 映射 ， 或者， 你 
可 能 会 使 用 生成 器 来 加 载 你 所 需 的 部 分 数据 ， 为 了 局 部 计算 ， 而 不 是 把 它 一 次 性 
全 部 加 载 进来 。 

如 果 你 正 用 数字 型 的 数据 来 工作 ， 那 么 你 几乎 肯定 会 想 要 转 而 使 用 numpy 数组 
一 一 该 包 提供 了 许多 直接 工作 在 底层 基本 类 型 对 象 上 的 快速 算法 。 与 使 用 数字 的 列 
表 相 比 ，RAM 上 的 节省 是 巨大 的 ， 而 且 时 间 上 的 节省 也 一 样 令 人 惊奇 。 

在 本 书 中 你 已 经 注意 到 我 们 一 般 使 用 xrange， 而 不 是 range， 只 是 因为 (在 
Python 2.x 中 ) xrange 是 一 个 产生 器 ， 然 而 range 却 构建 了 一 个 完整 的 列表 。 
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构建 一 个 100000000 个 整数 的 列表 仅仅 用 来 遍历 正确 的 次 数 是 过 分 的 一 一 RAM 
耗费 巨大 而 且 完 全 不 必要 。Python 3.x 把 range 变 成 了 一 个 产生 器 ， 这 样 你 不 再 
需要 做 这 种 改变 。 


如 果 你 正 使 用 字符 串 工作 , 并 且 你 用 的 是 Python 2.x, 如 果 你 想 要 节约 RAM, 设法 
坚持 使 用 str 而 不 是 unicodqe。 如 果 你 贯穿 整个 程序 需要 许多 Uncode 对 象 ， 你 
可 能 通过 简单 地 升级 到 Python 3.3+， 就 能 受到 更 好 的 服务 。 如 果 你 正 要 在 一 个 静 
态 结构 中 存储 大 量 的 Uncode 对 象 ， 那 么 你 可 能 想 要 调查 下 我 们 刚才 讨论 过 的 
DAWG 和 trie 树 结构 。 


如 果 你 正 用 许多 比特 字 串 来 工作 ,调查 下 numpy 和 bitarray 包 , 它们 都 有 把 比 
特 打 包 进 字 节 的 高 效 表 示 。 你 可 能 也 会 受益 于 查看 Redis， 它 提供 了 高 效 的 比特 模 
式 存储 。 


PyPy 项 目 正 在 试验 更 高 效 的 同 质 数据 结构 的 表示 ， 这 样 相同 的 基本 类 型 (例如 ， 
整数 ) 的 长 列表 在 PyPy 中 要 比 在 CPython 中 的 等 价 结构 体 可 能 耗费 要 少 得 多 。 
Micro Python 项 目 会 让 任何 工作 于 舰 入 式 系 统 的 人 产生 兴趣 。 它 是 一 个 缩微 内 存 
印记 的 ， 试 图 兼容 于 Python 3 的 Python 实现 。 


这 (几乎 !) 不 用 我 说， 你 要 知道 当 你 设法 优化 RAM 使 用 时 ， 你 必须 要 做 基准 测 
试 ， 并 且 在 你 改变 算法 前 ， 有 一 个 适当 的 单元 测试 集会 产生 一 个 优厚 的 报酬 。 


已 经 回顾 了 几 种 高 效 地 压缩 字符 串 和 存储 数字 的 方法 后 , 我 们 现在 将 看 看 以 精度 换 
取 存 储 空间 。 


11.6 ”概率 数据 结构 


概率 数据 结构 允许 你 以 精度 来 换取 大 幅度 的 内 存 使 用 下 降 。 除 此 之 外 ,你 能 在 它们 
之 上 所 做 的 操作 数量 比 set 或 者 trie 树 要 有 限 得 多 。 例 如 ， 使 用 一 个 单独 的 耗费 
2.56KB 的 HyperLogLog++ 结 构 ， 你 能 够 计数 唯一 项 的 数量 一 直到 大 约 7900000000 
项 ， 而 具有 1.625% 的 误差 。 


这 意味 着 如 果 我 们 尝试 计数 唯一 的 汽车 牌照 数字 , 如 果 我 们 的 HyperLogLog++ 计 数 
器 得 出 有 654192028， 我 们 就 会 置信 实际 的 数目 在 643561407 到 664822648 之 间 。 

而 且 ， 如 果 这 个 精度 不 够 ， 你 可 以 仅仅 给 结构 增加 更 多 的 内 存 ， 它 就 会 做 得 更 好 。 
给 它 40.96KB 的 资源 就 会 让 误差 从 1.625% 降 低 到 0.4%。 无 论 如 何 ， 即 使 假设 没有 
开销 ， 把 这 数据 存储 到 一 个 set 中 也 会 耗费 3.925GB 1! 
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另 一 方面 ,HyperLogLog++ 结 构 将 只 能 够 对 一 个 集合 的 牌照 进行 计数 ， 并 合并 另 一 
个 集合 的 牌照 。 如 此 这 般 ,， 我 们 就 能 够 让 每 一 个 州 有 一 个 这 样 的 结构 ， 查 找 在 那些 
州 中 有 多 少 独 立 的 牌照 , 然后 再 把 它们 合并 起 来 得 到 整个 国家 的 计数 。 如 果 给 我 们 
一 个 牌照 , 我们 无 法 以 非常 优秀 的 准确 度 来 告诉 你 我 们 以 前 是 否 见 过 它 ， 而 且 我 们 
无 法 给 你 一 个 我 们 曾经 见 过 的 牌照 样本 。 


当 你 已 经 花费 了 时 间 去 理解 问题 并 且 需 要 投入 生产 来 能 够 回答 关于 一 个 非常 巨大 
的 数据 集 上 的 一 个 很 小 的 问题 集 时 , 概率 数据 结构 是 奇妙 的 。 每 种 不 同 的 数据 结构 
有 它 能 够 以 不 同 的 精度 来 回答 的 不 同 问题 , 所 以 找到 合适 的 数据 结构 只 和 理解 你 的 
需求 相关 。 


几乎 在 所 有 情况 下 ， 概 率 数据 结构 通过 找到 对 数据 的 另 一 种 表示 形式 来 工作 ， 这 
种 表示 更 紧凑 并 且 包含 与 回答 某 个 问题 集 相 关 的 信息 。 可 以 把 这 看 成 一 种 有 损 压 
缩 的 类 型 ， 我 们 可 能 丢失 了 数据 的 某 些 方面 ， 但 是 却 保留 了 必要 的 成 分 。 既 然 我 
们 允许 数据 丢失 掉 与 我 们 所 关心 的 特定 问题 集 不 一 定 相关 的 部 分 ， 这 种 有 损 压缩 
能 够 比 我 们 之 前 使 用 trie 树 所 看 到 的 无 损 压 缩 高 效 得 多 。 正 因为 如 此 ， 你 选择 使 
用 哪 种 概率 数据 结构 是 相当 重要 的 一 一 你 想 要 挑选 为 你 的 使 用 场景 保留 了 合适 
言 息 的 那 一 个 1 


在 我 们 深入 探索 之 前 ， 应 该 澄清 这 里 的 “误差 率 ” 由 标准 差 来 定义 。 这 个 术语 源 自 
于 描述 高 斯 分 布 ， 说 明 函 数 围绕 一 个 中 心 值 的 发 散 程 度 。 当 标准 差 增长 时 , 值 的 数 
量 就 更 偏离 中 心 点 。 概率 数据 结构 的 误差 率 因 此 成 名 就 是 因为 围绕 着 它们 的 所 有 分 


析 都 是 基于 概率 的 。 如 此 这 般 ， 当 我 们 说 HyperLogLog++ 算 法 有 一 个 rr- 并 的 


误差 时 , 我 们 意思 是 指 有 66% 的 机 会 误差 会 小 于 err， 有 95% 的 机 会 小 于 2*err, 有 
99.7% 的 机 会 小 于 3*err。” 


11.6.1 使 用 1 字 节 的 Morris 计数 器 来 做 近似 计数 

我 们 将 介绍 使 用 其 中 最 早期 的 一 种 概率 计数 器 一 一 Morris 计数 器 (以 NSA 和 贝尔 
实验 室 的 Robert Morris 来 命名 ) 来 做 概率 计数 的 主题 。 应 用 包括 在 RAM 受 限 的 环 
境 中 (例如 ， 在 一 台 嵌 入 式 计算 机 上 ) 对 数 百 万 个 对 象 进行 计数 ， 理 解 大 数据 流 ， 
以 及 类 似 图 像 和 语音 识别 之 类 的 问题 。 


Morris 计数 器 跟踪 一 个 指数 并 以 2” 来 对 计数 状态 建 模 (不 是 一 个 正确 的 计数 ) 
它 提 供 了 一 个 数量 级 的 估计 。 这 个 估计 使 用 概率 规则 来 更 新 。 




















































































































































































































































































































Q@ 这 些 数 字 来 自 于 


Jl 


有 分 布 的 66-95-99 规则 。 更 多 的 信息 能 够 在 维基 百科 条 目 中 找到 。 
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我 们 开始 把 指数 设 为 0。 如 果 我 们 请 求 计数 器 的 值 , 我 们 会 给 出 pow (2, exponent) 
=1 (敏锐 的 读者 会 注意 到 这 偏差 一 个 一 一 我 们 的 确 说 过 这 是 近似 计数 器 !)。 如 果 
我 们 让 计数 器 自 增 ， 它 将 会 产生 一 个 随机 数 (使 用 均匀 分 布 )， 并 且 它 会 测试 是 否 
random(0,1) <= 1 / pow(2，exponent)， 对 (pow(2，0) == 1) 始终 
为 真 。 计 数 器 自 增 ， 并 把 指数 设 为 1。 

我 们 让 计数 器 第 二 次 自 增 ， 它 就 会 测试 是 否 random (0, 1) <= 1 /pow(2, 1)。 
这 将 会 有 50% 的 机 会 为 真 。 如 果 测 斌 通过， 那么 指数 就 递增 了 。 如 果 不 通过 ,那么 
对 于 这 次 递增 请 求 ， 指 数 不 递 增 。 


表格 11-1 显示 了 对 于 每 一 个 首 指数 ， 递 增发 生 的 几率 。 


































































































表 11-1 Morris 计数 器 细节 
exponent pow(2, exponent) P(increment) 
0 1 1 
2 0.5 
2 4 0.25 
3 8 0.125 
4 16 0.0625 
254 2.894802e+76 3.454467e-77 
为 指数 使 用 一 个 单独 的 无 符号 字 节 , 我 们 能 够 近似 计数 的 最 大 值 是 math .pow (2， 
255) == 5e76。 当 总 数 增 大 时 ， 相 对 实际 数量 的 误差 就 会 变 大 ,但 是 节省 下 来 


的 RAM 多 得 惊人 ， 因 为 我 们 只 使 用 了 1 字 节 ， 否 则 我 们 只 好 用 32 位 的 无 符号 多 
字 节 。 例 11-20 展示 了 Morris 计数 器 的 一 个 简单 实现 。 


例 11-20 简单 的 Morris 计数 器 实现 


from random import random 

















class MorrisCounter (object): 
counter = 0 
def add(self, *args): 
if random() < 1.0 / (2 xx self.counter): 
self.counter += 1 


def len (self): 
return 2**self.counter 


使 用 这 个 例 中 的 实现 ， 我们 能 够 看 到 在 例 11-20 中 ,第 一 个 递增 计数 器 的 请 求 成 功 
了 ,而 第 二 个 失败 了 。” 



































@ 一 个 更 加 完全 纸 新 的 使 用 了 一 个 字 节 数组 来 创建 多 计数 器 的 实现 在 https:/eithub.com/ianozsvald/morris_counter 


中 可 用 。 
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例 11-21 Morris 计数 器 库 的 例子 


In [2]: mc = MorrisCounter () 
In [3]: print len (mc) 


In [4]: mc.add() # P(1) of doing an add 
In [5]: print len (mc) 


In [6]: mc.add() # P(0.5) of doing an add 
In [7]: print len(mc) # the aaa does not occur on this attempt 
2.0 


在 图 11-3 中 ， 粗 黑 线 显示 了 一 个 通常 的 在 每 一 次 迭代 中 递增 的 整数 。 在 一 个 64 
位 的 计算 机 上 , 这 是 一 个 8 字 节 的 整数 。 三 个 1 字 节 的 Morris 计数 器 的 演进 以 点 
线 来 显示 ; 了 轴 显 示 它 们 的 值 ， 近 似 表示 了 每 次 送 代 中 的 真实 的 数量 。 展 示 了 三 
个 计数 器 来 给 你 一 个 关于 它们 的 不 同 轨迹 以 及 总 体 趋势 的 概念 。 三 个 计数 器 完全 
相互 独立 。 


























Morris 计 数 器 的 表现 


140006 . 
-一 整数 计数 器 ( 宇 4 字 节 ) 
- -Morris 计 数 器 0〈1 字 节 ) 
120088 。 - - Morris 计数 器 1 (1 字 节 ) 
-- :Morris 计数 器 2〈1 字 节 ) 
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11-3 三 个 1 字 节 的 Morris 计数 器 对 比 一 个 8 字 节 的 整数 


这 张 图 表 给 你 一 些 使 用 Morris 计数 器 时 所 要 期 望 的 误差 概念 。 关 于 误差 表现 的 进 
一 步 细 节 在 线 上 有 提供 。 
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11.6.2 上 最 小 值 

在 Morris 计数 器 中 ， 我 们 丢失 了 所 插入 的 项 目的 任何 类 型 的 信息 。 那 就 是 说 ， 计 
数 器 的 内 部 状态 是 相同 ， 而 不 管 我 们 是 .aqd (“micha”) 还 是 .adqd (“ian”)。 额 
外 的 信息 是 有 用 的 ， 如 果 使 用 得 当 ， 能 够 帮助 我 们 的 计数 器 只 对 唯一 项 进行 计数 。 
这 样 做 的 话 ， 调 用 .adqd (“micha”) 几 千 次 将 只 会 增加 计数 器 一 次 。 


为 了 实现 这 种 行为 ， 我 们 将 探索 散 列 函数 的 属性 (请 看 4.1.4 节 来 得 到 对 散 列 函数 
的 更 深入 的 讨论 )。 


我 们 想 要 利用 的 主要 属性 就 是 基于 这 样 一 个 事实 : 散 列 函数 获取 输入 并 且 均 匀 地 分 
CE 它 。 例如, 让 我 们 假设 有 一 个 散 列 函数 获取 一 个 字符 串 并 和 输出 一 个 0 到 1 之 间 的 
数字 。 那个 函数 均匀 分 布 意味 着 当 我 们 给 它 输入 一 个 字符 串 时 ,我们 以 与 得 到 一 个 
0.2 的 值 相等 的 几率 来 得 到 一 个 0.5 的 值 ， 或 者 任何 一 个 其 他 的 值 。 这 也 意味 着 如 
果 我 们 给 它 输入 很 多 字符 串 值 ， 我 们 将 期 望 这 些 值 被 相对 均匀 排 布 。 记 住 ， 这 是 一 
个 概率 化 的 论点 : 值 不 是 总 会 被 均匀 排 布 ,但 是 如 果 我 们 有 许多 字符 串 ， 并 且 尝 试 
了 这 个 实验 很 多 次 ， 它 们 会 趋向 于 均匀 地 排 布 。 


假设 我 们 获取 了 100 项 并 存储 了 那些 值 的 散 列 〈 散 列 从 0 到 1 数 数 )。 知 道 均匀 排 

意味 着 与 其 说 “我 们 有 100 项 ,不 如 说 “我 们 每 一 项 之 间 的 间隔 是 0.01”。 这 是 
K 最 小 值 算法 最 终 的 出 处 一 一 如 果 我 们 保存 了 我 们 所 见 到 的 x 个 最 小 的 唯一 散 列 
值 ， 我 们 就 能 近似 估算 散 列 值 的 总 体 空间 ， 并 且 推导 出 这 些 项 的 全 部 数量 。 在 图 
11-4 中 ， 当 越 来 越 多 的 项 加 进来 时 ， 我 们 能 看 见 一 个 K 最 小 值 结构 (也 叫 作 一 个 
KMV) 的 状态 。 首 先 ， 既 然 我 们 没有 很 多 散 列 值 ， 我 们 保存 的 最 大 散 列 就 是 相当 
大 的 。 当 我 们 把 越 来 越 多 项 加 进来 时 , 我 们 所 保存 的 最 大 的 k 个 散 列 值 就 会 变 得 越 
来 越 小 。 使 用 这 个 方法 ， 我 们 能 够 得 到 co 二 的 误差 率 。 


2 
n(k -2) 






































































































































k 越 大 , 我 们 就 越 能 说 明 我 们 所 使 用 的 散 列 化 函数 对 于 我 们 的 特定 输入 不 是 完全 均 
匀 的 , 而 且 还 是 造成 不 坟 散 列 值 的 原因 。 一 个 不 柱 散 列 值 的 例子 就 是 对 [\A’，`B”， 
Cc”] 做 散 列 化 ， 得 到 了 值 [0.01，0.02，0.03] 。 如 果 我 们 开始 散 列 化 越 来 越 
多 的 值 ， 它 们 会 聚合 起 来 的 可 能 性 就 越 来 越 少 。 


而 且 ， 既 然 我 们 只 保留 最 小 的 唯一 散 列 值 ， 数 据 结 构 只 考虑 唯一 的 输入 。 我 们 早 就 
能 看 到 这 个 , 因为 如 果 我 们 处 在 一 个 只 存储 了 最 小 的 三 个 散 列 并 且 当 前 [0.1，0.2， 





























@ Beyer,K.,Haas, PJ., Reinwald, B., Sismanis, Y., 和 Gemulla, R… 在 多 集 和 操作 下 ,有 关 对 独立 值 估算 的 概要 ”。 
2007 年 ACM SIGMOD 数据 管理 国际 会 议 进 展 _ SIGMOD 07, (2007): 199 210. doi:10.1145/1247480.1247504。 
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是 最 小 的 散 列 的 状态 中 ， 如 果 我 们 增加 了 任何 散 列 值 是 0. 4 的 项 ， 我 们 的 状 
态 将 保持 不 变 。 同 样 ， 如 果 我 们 添加 了 散 列 值 是 0.3 的 更 多 项 进来 ， 我 们 的 状态 
也 不 会 改变 。 这 是 一 个 叫 作 第 等 性 的 属性 , 它 意 味 着 如 果 我 们 对 这 个 结构 多 次 用 相 
同 的 输入 做 相同 的 操作 , 状态 将 保持 不 变 。 这 与 某 些 结构 相反 , 例如 , 在 一 个 1ist 
的 尾部 添加 总 是 会 改变 它 的 值 。 寡 等 性 的 概念 贯穿 于 本 小 节 中 的 所 有 数据 结构 , 但 
是 除了 Morris 计数 器 之 外 。 
例 11-22 展示 了 一 个 非常 基本 的 K 最 小 值 实现 。 值 得 注意 的 是 我 们 使 用 了 一 个 
sortedset， 它 就 像 一 个 sst， 但 是 只 包含 唯一 项 。 这 种 唯一 性 免费 地 把 寡 等 性 给 
了 我 们 的 KMinValues 结构 。 为 了 看 到 它 ， 请 跟随 代码 : 当 相同 的 项 被 加 入 了 超 
过 一 次 ， 数 据 属性 不 发 生 改 变 









































K=20 的 KMV 的 散 列 空间 


本 上 





0.9 0.1 Qs 0.3 9.4 9.5 0.6 @.7 0.8 0.9 1.0 


11-4” 当 更 多 的 元 素 加 进来 时 ， 值 存储 在 一 个 KMV 结构 中 





例 11-22 简单 的 KMin 值 实现 
import mmh3 
from blist import sortedset 


class KMinValues (object): 
def _init (self, num hashes) : 
self.num hashes = num hashes 
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self.data = sortedset() 


def add(self, item 


六 


item _ hash = mmh3.hash (item) 

self.data.add (item hash) 

if lenl(self.data) > self.num hashes: 
self.data.pop() 


def _ len (self): 
if len(self.da 
return 0 


ta) <= 2: 


return (self.num hashes - 1) * (2**32-1) / float(self.data[-2] + 2**31 - 1) 


使 用 在 Python 的 包 countmemaybe ( 例 11-23) 中 的 KMinValues 的 实现 , 我 们 


可 以 开始 看 看 这 个 数据 结构 
全 实现 了 其 他 的 集合 操作 ， 
用 











一 、 














的 用 途 。 这 个 实现 与 例 11-22 中 的 非常 类 似 ， 但 是 它 完 
刚 如 并 集 与 交集 。 也 要 注意 “大 小 ”和 “和 势 ” 被 交 蔡 使 




















单词 “ 势 ” 来 自 于 集合 理论 ， 更 多 的 在 分 析 概 率 数据 结构 中 被 用 到 )。 在 这 里 ， 


我 们 能 看 见 即使 让 k 使 用 一 个 小 得 合理 的 值 , 我 们 也 能 够 存储 50000 项 , 而且 能 够 


以 相对 低 的 误差 计算 许多 集合 操作 的 势 。 


例 11-23 countmemaybe 的 KMinValue 实现 


>>> from countmemaybe import KMinValues 
>>> kmvl = KMinValues (k=1024) 

>>> kmv2 = KMinValues (k=1024) 

>>> for i in xrange (0,50000): #@ 


kmv1 .add (str (i)) 


>>> for i in xrange(25000, 75000): #®@ 
kmv2 .add (str (i)) 





>>> print len (kmv1) 
50416 


>>> print len (kmv2) 
52439 


>>> Print kmvil.cardinality intersection (kmv2) 
25900.2862992 





>>> Print kmvi.cardinality union (kmv2) 
75346.2874158 


@ 我 们 在 kmvl 中 放 人 了 50000 个 元 素 。 





@ 在 kmv2 中 也 放 和 人 50000 个 元 素 ， 其 中 25000 个 与 在 kmvl 中 的 相同 。 
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使 用 这 些 类 型 的 算法 ， 散 列 函数 的 选择 对 于 估算 的 质量 具有 巨大 的 影 
响 。 这 些 实 现 都 使 用 了 mmh3，Python 实现 的 mumurhash3 对 于 散 列 
化 字符 串 具 有 良好 的 属性 。 无 论 如 何 ， 可 以 使 用 不 同 的 散 列 函数 ， 如 
果 它 们 对 你 特定 的 数据 集 更 方便 的 话 。 


11.6.3 布 隆 过 滤器 
有 时 我 们 需要 能 够 做 其 他 类 型 的 集合 操作 , 为 此 , 我 们 需要 引入 新 的 概率 数据 结构 
类 型 。 布 隆 过 滤 被 创造 出 来 用 以 回答 我 们 是 否 在 之 前 看 到 过 一 个 条 目的 问题 。 


布 隆 过 滤器 通过 多 散 列 值 的 方式 来 工作 , 用 于 把 一 个 值 表示 成 多 个 整数 。 如 果 我 们 
之 后 看 到 了 相同 的 整数 集 ， 我 们 就 能 相当 确信 这 就 是 相同 的 值 。 


为 了 以 高 效 利 用 可 用 的 资源 的 方式 做 到 这 一 点 , 我 们 暗暗 地 把 整数 编码 成 一 个 列表 
的 索引 。 这 可 能 被 看 作 一 个 初始 化 成 False 的 布尔 型 的 列表 。 如 果 我 们 被 要 求 增 
加 一 个 散 列 值 为 [10，4，7] 的 对 象 ， 那 么 我 们 设置 列表 的 第 十 、 第 四 和 第 七 个 索 
引 为 True。 将 来 ， 如 果 我 们 被 问 到 以 前 是 否 看 见 到 一 个 特定 的 条 目 ， 我 们 仅仅 查 
找 它 的 散 列 值 并 检查 布尔 型 列表 中 对 应 的 点 是 否 设置 成 了 True。 


这 种 方法 不 会 给 我 们 带 来 假 阴性 , 而 会 给 我 们 带 来 一 个 可 控 的 假 阳 性 率 。 这 意味 着 
如 果 布 隆 过 滤器 说 我 们 以 前 没有 看 见 过 一 个 条 目 ， 那 么 我 们 100% 确 认 我 们 的 确 以 
前 没有 见 过 该 条 目 。 另 一 方面 ,如果 布 隆 过 滤器 说 我 们 以 前 曾 看 见 过 一 个 条 目 ， 那 
么 有 一 定 的 概率 我 们 其 实 并 没有 看 见 过 , 并 且 我 们 只 是 看 见 了 一 个 错误 的 结果 。 这 
个 错误 的 结果 来 自 于 我 们 会 有 散 列 冲撞 的 事实 ， 有 时 两 个 对 象 的 散 列 值 会 是 相同 
的 ， 即 使 它们 不 是 同一 个 对 象 。 无论 如 何 ， 在 实践 中 ,， 布 隆 过 滤器 被 设置 成 具有 不 
到 0.5% 的 误差 率 ， 所 以 这 种 错误 是 可 以 被 接受 的 。 
我 们 可 以 仅 赁 两 个 相互 独立 的 散 列 函数 来 模拟 具有 我 们 想 要 的 数量 
的 散 列 函 数 。 这 个 方法 被 称 作 “ 双 散 列 ”。 如 果 我 们 有 一 个 给 出 两 个 
相互 独立 的 散 列 值 的 散 列 肖 数 ， 我 们 可 以 这 样 做 : 
def multi hash(key, num hashes): 
hashl, hash2 = hashfunction (key) 


for i in xrange (num hashes): 
yield (hashl + i * hash2) $ (2^32 - 1) 



















































































@ Bloom,B.H. “以 允许 的 误差 使 用 hash 编码 做 空间 /时 间 的 权衡 。”ACM 通信 。13:7 (1970) : 422-426 
doi:10.1145/362686.362692 
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模 数 确 保 了 作为 结果 的 散 列 值 是 32 比特 的 〈 我 们 可 以 通过 2^64 -1 
来 为 64 比特 的 散 列 函数 求 摸 )。 























我 们 所 需 的 布尔 型 列表 的 准确 长 度 以 及 每 一 个 条 目的 散 列 值 的 数量 将 基于 我 们 
所 要 求 的 容量 和 误差 率 而 定 。 使 用 一 些 相 当 简单 的 统计 参数 ， 我 们 看 到 理想 的 
值 就 是 : 








log(error) 
log(2) 
log(2) 

capacity 


那 就 是 说 ， 如 果 我 们 希望 以 0.05% 的 假 阳 性 ( 那 就 是 说 ， 当 我 们 说 曾经 看 到 过 一 个 
对 象 时 ， 有 0.05% 的 几率 其 实 我 们 并 没有 见 过 它 ) 来 存储 50000 个 对 象 不管 对 象 
自己 有 多 大 ) ， 那 就 需要 791015 比特 的 存储 空间 和 11 个 散 列 函数 。 


为 了 进一步 提高 我 们 使 用 内 存 的 效率 , 我 们 能 够 使 用 单个 比特 来 表示 布尔 值 (一 个 
本 地 的 布尔 型 实际 上 占用 4 比特 位 )。 我 们 能 够 通过 使 用 bitarray 模块 来 轻易 地 
做 到 。 例 11-24 展示 了 一 个 简单 的 布 隆 过 滤器 的 实现 。 


例 11-24 简单 的 布 隆 过 滤器 实现 
import bitarray 


import math 
import mmh3 


num _ bits = —capacity: 


num_hashes =num bits: 


























class BloomFilter (object): 
def _ init (self, capacity, error=0.005): 


mm 


Initialize a Bloom filter with given capacity and false positive rate 
rr 

self.capacity = capacity 

self.error = error 

self.num bits = int(-capacity * math.log(error) / math.log(2)**2) + 1 
self.num hashes = int (self.num bits * math.10g(2) / float (capacity)) + 1 
self.data = bitarray.bitarray (self.num bits) 


def indexes(self, key): 
hl, h2 = mmh3.hash64 (key) 
for i in xrange(self.num hashes) : 
yield (hl + i * h2) %$ self.num bits 




















@ 维基 关于 布 隆 过 滤器 的 页 面 上 有 一 个 非常 简单 的 对 布 隆 过 滤器 属性 的 证 明 。 
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def add(self, key): 
for index in self. indexes (key): 
self.data[index] = True 


def contains (self, key): 
return alll(self.datalindex] for index in self. indexes (key)) 


def len (self): 
num bits on = self.data.count (True) 
return -1.0 * self.num bits * 
math.1log(1.0 - num bits on / float(self.num pits)) / 


float (self.num hashes) 


@staticmethod 

def union (bloom a, bloom b): 
assert bloom a.capacity == bloom b.capacity, "Capacities must be equal" 
assert bloom a.error == bloom b.error, “Error rates must be equal" 


bloom union = BloomFilter (bloom a.capacity, bloom a.error) 
bloom union.data = bloom a.data | bloom b.data 
return bloom union 


如 果 我 们 插入 的 条 目 超过 了 我 们 对 布 隆 过 滤器 所 声明 的 容量 , 那么 会 发 生 什么 呢 ? 











最 终 


一 





布尔 型 列表 中 的 所 有 条 目 都 被 设置 成 了 True， 在 这 种 情况 下 ， 我 们 说 我 们 


已 看 见 了 每 一 个 条 目 。 这 意味 着 布 隆 过 滤器 对 所 设置 的 初始 容量 很 敏感 ， 如 果 我 们 
正在 处 理 一 个 不 知道 天 小 的 数据 集 例如， 数据 流 )， 情 况 就 会 相当 恶劣 。 


处 理 这 种 情况 的 一 种 方法 就 是 使 用 布 隆 过 滤器 的 变 体 ， 被 称 作 可 扩展 的 布 降 过 滤器 。 
它们 通过 一 种 特别 的 方法 把 误差 率 不 同 的 多 个 布 隆 过 滤器 串联 在 一 起 来 工作 。 通 
过 这 样 做 , 我 们 能 够 保证 一 个 总 体 的 误差 率 ， 并且 当 需 要 更 多 容量 时 ， 仅 仅 增 加 一 


个 新 的 布 隆 过 滤器 。 为 了 检测 我 们 之 前 是 否 曾经 看 到 过 一 个 条 目 , 我 们 只 是 在 所 有 



































的 子 布 隆 过 滤器 上 进行 过 历 , 直到 我 们 找到 该 对 象 或 者 消耗 完 列 表 。 这 种 结构 的 一 
个 简单 实现 可 以 在 例 11-25 中 见 到 ， 我 们 使 用 了 之 前 的 布 隆 过 滤器 作为 底层 机 能 ， 











并 且 有 一 个 计数 器 来 简化 了 解 什么 时 候 该 增加 一 个 新 的 布 隆 过 滤器 。 


例 11-25 简单 的 扩展 布 隆 过 滤器 实现 


from ploomfilter import BloomFilter 


class ScalingBloomFilter (object): 


def init (self, capacity, error=0.005, 




















@ Almeida, P. S., Baquero, C., Preguica, N., and Hutchison, D.“ 可 扩展 布 隆 过 滤器 ” ,信息 处 理 信件 101: 255 261. 
doi:10.1016/j.ipl.2006.10.007。 


























@ 错误 值 实际 上 会 降低 ， 类 似 于 几何 级 数 。 这 样 ， 当 你 采用 所 有 误差 率 的 乘积 时 ， 它 就 趋 近 于 所 期 望 的 误差 率 。 
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max fill=0.8, error tightening ratio=0.5): 





self.capacity = capacity 

self.base error = error 

self.max fill = max fill 

self.items until scale = int(capacity * max fil1) 
self.error tightening ratio = error tightening ratio 
self.bloom filters = [] 

self.current bloom = None 

self. add bloom() 


def add bloom(self) : 
new error = self.base error * 
self.error tightening ratio xx len(self.bloom filters) 
new bloom = BloomFilter (self.capacity, new error) 
self.bloom filters.append (new bloom) 
self.current bloom = new_ bloom 
return new bloom 





def add(self, key): 
if key in self: 
return True 
self.current bloom.add (key) 
self.items until scale -= 1 
if self.items until scale == 0: 
bloom size = len(self.current bloom) 
bloom max capacity = int (self.current bloom.capacity * self.max fil1) 


# We may have been adding many duplicate values into the Bloom, so 
# we need to check if we actually need to scale or IF we stil] have 
# space 
if bloom size >= bloom max capacity: 

self. add bloom() 

self.items until scale = bloom max capacity 
else: 

self.items until scale = int (bloom max capacity - bloom size) 

return False 


def contains (self, key): 
return any(key in bloom for bloom in self.bloom filters) 


def len (self): 


return suml(len(bloom) for bloom in self.bloom filters) 
处 理 这 种 情况 的 另 一 种 方式 就 是 使 用 一 种 称 作 计 时 布 隆 过 滤器 的 方法 ,这 种 变 体 允 
fF 元素 超时 而 被 移出 数据 结构 , 这 样 就 为 更 多 的 元 素 腾 出 了 空间 。 对 流 处 理 尤 其 有 
效 ， 因 为 我 们 能 够 让 元 素 超时 ， 比 如 说 一 小 时 之 后 ,而 且 把 容量 设置 得 足够 大 以 便 
能 处 理 我 们 每 小 时 看 到 的 数据 量 。 以 这 种 方式 使 用 布 隆 过 滤器 将 会 带 给 我 们 对 最 近 
一 小 时 内 发 生 的 事情 的 良好 视图 。 





Mn 
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使 用 这 种 数据 结构 感觉 和 使 用 一 个 集合 对 象 很 像 。 在 下 面 的 交互 中 , 我 们 使 用 可 扩 
展 的 布 隆 过 滤器 来 增加 几 个 对 象 ， 测试 下 是 否 曾 经 见 到 过 它们 , 接着 尝试 以 实验 的 
方法 找到 假 阳 性 率 ; 


>>> bloom = BloomFilter(100) 





>>> for i in xrange (50): 
By bloom.add (str (i)) 


>>> "20" in ploom 


中 


el 


中 





贡生 


p> > ke 
False 


>>> num false positives = 0 
>>> num true negatives = 0 


>>> # None of the following numbers should be in the Bloom. 
>>> # If one is found in the Bloom, it is a false positive. 
>>> for i in xrange (51,10000): 

a if str(i) in bloom: 

ee num false positives += 1 

a else: 

5 num true negatives += 1 


>>> num false positives 
54 


>>> num true negatives 
9895 


>>> false positive rate = num false positives / float(10000 - 51) 


>>> false positive rate 
0.005427681173987335 


>>> bloom.error 
0.005 
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为 了 联合 多 个 条 目 组 ， 我 们 也 可 以 用 布 隆 过 滤器 做 并 集 : 


>>> bloom a = BloomFilter(200) 


>>> " 
Out 








blo 


for 


fo 


blo 


"51m 


Os 





12]: 








om b = BloomFilter (200) 
i in xrange (50): 


bloom a.add (str (i)) 


i in xrange (25,75): 
bloom b.add(str (i)) 
om = BloomFilter.union(bloom a, bloom b) 


in bloom a#®@ 
False 


" in bloom b # 外 
: False 


" in bloom # © 
True 


' in bloom 





True 


@ 值 “51” 不 在 bloom a 中 。 
@ 同样 ,， 值 “24” 不 在 bloom b 中 。 
@ 无 论 如 何 ，bloom 对 象 包含 了 在 bloom a 和 bloom b 中 的 所 有 对 象 


使 用 它 的 














个 警告 就 是 你 只 能 对 两 个 具有 相同 容量 和 误差 率 的 布 隆 过 滤器 做 并 集 。 














而 且 , 最 终 的 布 隆 过 滤器 所 使 用 的 容量 能 够 与 组 成 它 的 两 个 做 并 集 的 布 隆 过 滤器 所 
使 用 的 容量 之 和 一 样 大 。 这 意味 着 你 可 能 从 两 个 布 隆 过 滤器 开始 , 它们 各 自 填 满 了 
不 到 一 半 容 量 , 当 你 把 它们 做 并 集 联合 起 来 时 , 就 会 得 到 一 个 新 的 超过 容量 并 且 不 
可 靠 的 布 隆 过 滤器 ! 


11.6.4 ”LogLog 计数 器 

LogLog 类 型 的 计数 器 基于 散 列 函 数 的 单个 比特 位 也 能 被 看 作 是 随机 的 事实 。 那 就 
是 说 ,一 个 散 列 的 第 一 个 比特 是 1 的 概率 是 50%, 前 两 个 比特 是 01 的 概率 是 25%， 
而 前 三 个 比特 是 001 的 概率 是 是 12.5%。 知道 了 这 些 概率 , 让 散 列 在 开始 处 保持 最 
多 的 0 (例如 ， 最 不 可 能 的 散 列 值 ) ， 我 们 就 能 估算 出 我 们 曾经 见 到 了 多 少 项 条 目 。 
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一 个 对 这 种 方法 很 好 的 类 比 就 是 投 搓 硬币。 想象 一 下 我 们 将 要 投掷 一 枚 硬币 32 次 ， 
而 且 每 次 都 是 正面 朝 上 。32 这 个 数字 来 源 于 我 们 使 用 32 比特 的 散 列 函数 的 事实 。 

如 果 我 们 投掷 一 次 ， 它 反面 朝 上 ， 我 们 就 存储 数字 0， 因 为 我 们 的 最 佳 尝试 接连 产 
生 了 0 次 正面 。 既 然 我 们 知道 在 这 枚 硬币 投掷 背后 的 概率 , 我 们 也 能 够 告诉 你 我 们 
最 长 的 序列 就 是 0 长 度 的 ， 你 能 估算 出 我 们 尝试 实验 了 2^0 = 1 次 。 如 果 我 们 继 
续 投 掷 硬币 而 且 能 够 在 得 到 一 次 反面 之 前 得 到 10 次 正面 ， 那 么 我 们 就 能 存储 数字 
10。 使 用 相同 的 逻辑 ， 你 就 能 估算 出 我 们 尝试 实验 了 2^10 = 1024 次 。 使 用 这 
个 系统 ， 我 们 所 能 计数 的 最 大 值 就 是 我 们 所 考虑 投掷 的 最 大 次 数 〈 对 于 32 次 投掷 
来 说 ， 这 就 是 2 ^ 32 = 4294967296)。 


为 了 使 用 LogLog 类 型 计数 器 对 这 个 逻辑 进行 编码 ， 我 们 对 输入 的 散 列 值 采用 了 二 
进 制 的 表示 ， 并 且 观 察 在 我 们 看 到 第 一 个 1 之 前 有 多 少 个 0。 散 列 值 能 够 被 视 作 一 
个 32 次 硬币 投掷 的 序列 ，0 意味 着 投掷 出 了 一 次 正面 朝 上 ，L 意味 着 投掷 出 了 一 
次 反面 朝 上 (例如 ，000010101101 意味 着 我 们 在 得 到 第 一 次 反面 之 前 投掷 出 了 
4 次 正面 ，010101101 意味 着 我 们 在 第 一 次 投掷 出 反面 之 前 投掷 出 了 一 次 正面 )。 

这 带 给 我 们 一 个 在 得 到 这 个 散 列 值 前 尝试 过 几 次 的 想法 。 在 这 个 系统 背后 的 数学 问 
题 几 乎 等 价 于 Morris 计数 器 ， 除 了 一 个 主要 的 例外 : 我 们 是 通过 查看 实际 的 输入 
而 不 是 使 用 一 个 随机 数 生成 器 来 获得 “随机 ” 值 的 。 这 意味 着 如 果 我 们 继续 给 一 个 
LogLog 计数 器 增加 相同 的 值 ， 它 的 内 部 状态 将 不 会 改变 。 例 11-26 展示 了 一 个 
LogLog 计数 器 的 简单 实现 。 


例 11-26 ”LogLog 计数 器 的 简单 实现 


import mmh3 




















































































































def trailing zeros (number): 
中 下 让 


Returns the index of the first bit set to 1 from the right side of a 32-bit 
integer 

>>> trailing zeros (0) 

32 

>>> trailing zeros (0b1000) 

3 

>>> trailing zeros (0b10000000) 

7 

LA 


if not number: 
return 32 

index = 0 

while (number >> index) & 1 == 0: 
index += 1 

return index 





304 第 11 章 、 . 
异步 社区 会 员 woshigedushuren(13120020972) 专 享 尊重 版 权 


class LogLogRegister (object): 
counter = 0 
def add(self, item): 
item hash = mmh3.hash (str (item)) 
return self. add (item hash) 


def addl(self, item hash) : 
bit index = trailing zeros (item hash) 
if bit index > self.counter: 
self.counter = bit index 


def len (self): 
return 2**self.counter 


这 个 方法 的 最 大 缺点 就 是 我 们 可 能 得 到 一 个 一 开始 就 增加 计数 器 的 散 列 值 , 这 会 牌 
曲 我 们 的 估算 。 这 就 类 似 于 在 第 一 次 尝试 时 投掷 出 了 32 次 反面 。 为 了 弥补 ， 我 们 
应 该 让 许多 人 同时 投掷 硬币 并 且 组 合 他 们 的 结果 。 大 数 定律 告诉 我 们 当 增 加 越 来 越 
多 的 投掷 者 时 , 总 体 统计 量 越 少 受 到 单独 的 投掷 者 的 异常 样本 的 影响 。 我 们 组 合 多 
个 结果 的 确切 方式 就 是 LogLog 类 型 方法 的 根本 性 差异 (经 典 的 LogLog、 
SuperLogLog、HyperLogLog、HyperLogLog++ 等 ) 。 


我 们 能 够 完成 这 个 “多 个 投掷 者 ”方法 ， 通 过 采用 散 列 值 的 首 对 比特 位 来 指定 我 们 
的 投掷 者 中 哪 一 位 投掷 者 具有 特定 的 结果 。 如 果 我 们 采用 散 列 值 的 前 4 个 比特 , 这 
意味 着 我 们 有 2^4=16 个 投掷 者 。 既 然 我 们 这 次 选择 了 使 用 前 4 个 比特 , 我 们 只 剩 
下 了 28 个 比特 (对 应 于 每 一 个 硬币 投掷 者 独立 地 投掷 28 次 硬币 )， 这 意味 着 每 一 
个 计数 器 只 能 计数 到 2^28 = 268435456。 此 外 ， 有 一 个 依赖 于 投掷 者 数量 的 党 
数 (alpha) 对 估算 做 正则 化 。 所 有 这 些 一 起 带 给 我 们 一 个 具有 1.05/ Vm) 的 准确 
度 的 算法 ，m 是 所 用 寄存 器 的 数量 (或 者 说 投掷 者 ) 。 例 11-27 展示 了 一 个 简单 的 
LogLog 算法 的 实现 。 
例 11-27 简单 的 LogLog 实现 


from llregister import LLRegister 
import mmh3 

























































































class LL (object): 
def init (self, p): 


self.P = P 
self.num registers = 2**p 
self.registers = [LLRegister() for i in xrange (int (2**p))] 





self.alpha = 0.7213 / (1.0 + 1.079 / self.num registers) 


def add(self, item): 
item hash = mmh3.hash(str (item)) 











Q@ 一 个 对 基础 LogLog 和 SuperLogLog 算法 的 完整 描述 可 以 在 http://bit.ly/algo rithm_desc 中 找到 。 
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register index = item hash & (self.num registers - 1) 
register hash = item hash >> self.p 
self.registers[lregister index]. add(register hash) 


def Tél "(SSLE): 


register sum = sum(h.counter for h in self.registers) 
return self.num registers * self.alpha * 
2** (float (register sum) / self.num registers) 


这 个 算法 除了 使 用 散 列 值 作为 一 个 指示 器 来 把 相似 的 条 目 去 重 之 外 , 还 有 一 个 可 调 
制 的 参数 , 能 够 用 来 在 要 达到 哪 种 类 型 的 准确 度 相对 于 你 想 要 做 出 的 空间 妥协 之 间 
进行 调拨 。 

在 len 方法 中 , 我 们 对 来 自 于 所 有 单个 LogLog 寄存 器 的 估算 值 求 它们 的 平均 
值 。 无 论 如 何 ， 这 不 是 我 们 组 合 数据 的 最 高 效 的 方式 ! 这 是 因为 我 们 可 能 得 到 一 些 
不 幸 的 散 列 值 使 得 某 个 特定 的 寄存 器 有 孤 峰 值 ， 而 其 他 的 则 还 处 于 低 值 。 正 因为 如 


此 ， 我 们 只 能 达到 o| 洋 ] 的 误差 率 ， 六 是 所 使 用 的 寄存 器 的 数量 。 












































SuperLogLog 被 设计 用 来 修正 这 个 问题 。 使 用 这 个 算法 ， 只 有 最 低 的 70% 的 寄存 
器 用 来 做 大 小 估算 , 它们 的 值 被 一 个 由 限制 规则 给 出 的 最 大 值 所 东 缚 。 这 个 附加 特 


性 把 误 关 率 减少 到 了 o| :至 ， 

















我 们 通过 忽略 信息 的 方式 来 得 到 一 个 更 好 的 估算 值 ， 这 是 违反 直觉 的 ! 
最 后 ，HyperLogLog 在 2007 年 出 现 ， 并 且 给 我 们 带 来 了 进一步 的 准确 度 收益 。 它 
公公 通过 改 赤 对 单个 寄存 尖 做 平均 的 方法 就 人 到 了 了 :我们 合用 了 球 忆 均 方案 ,对 
结构 可 能 所 处 的 不 同 的 边缘 情况 都 做 了 特殊 的 考虑 , 而 不 是 仅仅 做 平均 值 。 这 带 给 
我 们 当前 最 经 的 误差 率 o[ 里 ]， 此 外 ， 这 个 公式 移 除了 对 SuperLogLog 来 说 是 必 


须 的 排序 操作 。 当 你 设法 插入 大 量 条 目 时 , 这 能 大 大 提升 数据 结构 的 性 能 。 例 11-28 
展示 了 HyperLogLog 的 一 个 简单 实现 。 
























































例 11-28 简单 的 HyperLogLog 实现 
from 11 import LL 
import math 











@ Durand, M., and Flajolet, P “大 基数 的 LogLog 计数 ”。 会 刊 ， ESA 2003, 2832 (2003): 605 617. 

doi:10.1007/978-3-540-39658-1_55。 
@ Flajolet, P, Fusy, E., Gandouet, O., et al “HyperLogLog: 对 近似 最 优 的 基数 估计 算法 的 分 析 ”。2007 年 算 
法 分 析 国 际会 议会 刊 ，(2007) : 127-146。 
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class HyperLogLog (LL): 


于 再 


def _ Jen (self): 
indicator = sum(2**-m.counter for m in self.registers) 
E = self.alpha * (self.num registers**2) / float (indicator) 


if E <= 5.0 / 2.0 * self.num registers: 


V= sum(l for m in self.registers if m.counter == 0) 
if V != 0: 
Estar = self.num registers * 


math.log(self.num registers / (1.0 * V), 2) 

else: 

Estar = E 

else: 

让 在 “B= -232 11 300 
Estar SE 





Detak .=2%%32 matheLog(l. "E32 2 
et Esta 


name == " main 





import mmh3 

hll = HyperLogLog (8) 

for i in xrange(100000): 
hill.add (mmh3.hasn (str (i))) 

print len (hn11) 





HyperLogLog++ 是 唯一 的 进一步 增加 了 准确 度 的 算法 ， 当 数据 结构 相对 空 时 , 增加 
了 它 的 准确 度 。 当 更 多 的 条 蜜 插入 时 ， 这 个 方案 转向 于 标准 的 HyperLogLog。 其 实 
这 是 相当 有 用 的 ， 因 为 LogLog 类 型 计数 器 的 统计 量 需 要 许多 准确 的 数据 一 一 有 一 
种 允许 使 用 更 少量 的 条 目 来 获取 更 高 的 准确 度 的 方案 大 大 提高 了 这 种 方法 的 可 用 
性 。 这 种 额外 的 准确 度 通过 一 个 更 小 的 但 是 更 准确 的 HyperLogLog 结构 来 达到 ， 
它 以 后 能 够 被 转换 成 一 个 原先 所 请 求 的 更 大 的 结构 。 也 有 一 些 根据 经 验 得 出 的 常数 
被 用 在 大 小 估算 中 来 消除 偏差 。 


11.6.5 ”真实 世界 的 例子 


为 了 更 好 理解 数据 结构 , 我 们 首先 创建 了 一 个 具有 很 多 唯一 键 的 数据 集 , 接着 创建 








































































































一 个 具有 重复 条 目的 数据 集 。 当 我 们 把 这 些 键 输入 这 些 数 据 结构 后 , 只 是 观察 它们 














并 周期 性 地 询问 :“ 已 经 有 多 少 唯 一 条 目 了 ? ”， 图 11-5 和 图 11-6 展示 了 结果 。 我 
们 能 看 到 包含 更 多 有 状态 的 变量 (例如 HyperLogLog 和 KMinValues) 的 数据 结构 






































做 得 更 好 ， 因 为 它们 更 健壮 地 处 理 了 糟糕 的 统计 量 。 另 一 方面 ， 如 果 产 生 了 一 个 不 





幸 随机 数 或 者 不 幸 散 列 值 ，Morris 计数 器 和 单个 LogLog 寄存 器 就 可 能 快速 发 生 很 
高 的 误差 率 。 无论 如 何 , 对 于 大 多 数 算法 而 言 ， 我 们 知道 有 状态 变量 的 数量 直接 和 
所 能 确保 的 错误 相关 ， 所 以 这 就 是 有 意义 的 。 
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具有 重复 条 目的 60000 个 元 素 
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11-5 各 种 不 同 的 概率 数据 结构 对 于 重复 数据 的 对 比 














只 看 具有 最 佳 性 能 (实际 上 ,你 可 能 会 使 用 的 那些 ) 的 概率 数据 结构 ， 我 们 可 以 总 
结 出 它们 的 效用 和 大 概 的 内 存 使 用 (参见 表 11-2)。 我 们 可 以 看 到 内 存 使 用 的 巨大 
变化 取决 于 我 们 所 关心 的 问题 。 这 仅仅 强调 了 这 样 一 个 事实 : 当 使 用 一 个 概率 数据 
结构 时 , 你 必须 首先 考虑 在 继续 进行 之 前 , 有 关 数 据 集 的 什么 问题 是 你 真正 需要 回 
答 的 。 也 要 注意 只 有 布 隆 过 滤器 的 大 小 取决 于 元 素 的 数量 。HyperLogLog 和 
KMinValue 的 大 小 只 取决 于 误差 率 。 


作为 另 一 个 更 为 真实 的 测试 ， 我 们 选择 使 用 了 一 个 派生 自 维基 百科 文本 的 数据 集 。 
我 们 运行 了 一 个 很 简单 的 脚本 来 从 所 有 的 文章 中 抽取 出 具有 5 个 字符 的 所 有 单词 
符号 ， 并 把 它们 存储 在 一 个 用 换行 符 分 隔 的 文件 中 。 那 么 问题 就 是 :“ 有 多 少 唯一 
的 符号 ? ”在 表 11-3 中 能 看 到 结果 。 此 外 , 我 们 企图 使 用 来 自 于 11.4 节 中 的 datrie 
树 来 回答 相同 的 问题 (这 个 trie 树 被 选 来 与 其 他 数据 结构 做 对 比 ， 因 为 它 提供 了 良 
好 的 压缩 性 ， 然 而 却 还 是 足够 鲁 棒 来 处 理 完整 的 数据 集 )。 


来 自 于 这 个 实验 的 主要 副 品 就 是 如 果 你 能 够 特殊 化 你 的 代码 , 你 就 能 得 到 令 人 惊叹 
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的 速度 和 内 存 收益 。 贯 穿 于 整 本 书 ， 这 都 是 真实 的 : 当 你 对 6.4.2 节 中 的 代码 进行 




















特殊 化 处 理 时 ， 我 们 就 同样 能 得 到 速度 提升 。 
表 11-2 主要 概率 数据 结构 的 比较 
误差 率 并 集 ? 交集 是 否 包含 大 小 ， 

HyerLogLog 1.04 是 不 不 2.704MB 
是 to[ 实 ]) 

KMinValues V2 是 是 不 20.372MB 
ee 

m(m 一 2) 

布 隆 过 滤器 0.78 是 不 是 192.8MB 

oo 人 

















a. 并 集 操作 不 会 增加 误差 率 。 
b. 数据 结构 大 小 ,具有 0.05% 的 误差 率 ，100000000 个 唯一 元 素 , 使 用 一 个 64 比特 的 散 列 函数 。 


c. 这 些 操 作 能 够 做 ， 但 是 对 准确 度 有 一 个 不 可 忽视 的 惩罚 。 
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概率 数据 结构 是 一 种 对 你 的 代码 做 特殊 化 处 理 的 算法 。 我 们 只 存储 所 需 的 数据 来 





以 给 定 的 错误 上 界 回答 特定 的 问题 。 通 过 只 处 理 所 给 信息 的 子 集 ， 我 们 不 仅 能 够 


让 内 存 占用 空间 减少 很 多 ， 





而 且 也 能 够 在 这 些 结构 上 更 快 地 执行 大 部 分 操作 (就 

















如 在 表 11-3 中 所 能 见 到 的 那样 ,插入 datrie 树 的 时 间 比 任何 一 种 概率 数据 结构 要 







































































来 得 多 )。 
表 11-3 对 维基 百科 中 的 唯一 单词 的 数量 的 估计 
元 素 相对 误差 处 理 时 间 结构 大 小 * 
Morris 计数 器 1 073 741 824 6.52% 751 秒 Sbit 
LogLog 寄存 器 1 048 576 78.84% 1 690 秒 Sbit 
LogLog 4 522 232 8.76% 2112 秒 Sbit 
HyperLogLog 4983 171 -0.54% 2 907 秒 40KB 
KMinValues 4912 818 0.88% 3 503 秒 256KB 
可 扩展 布 隆 过 滤器 4 949 358 0.14% 10 392 秒 11509KB 
datrie 树 4 505 514d 0.00% 14 620 秒 114068KB 
真 值 4 956 262 0.00% |  ---- 49558KB* 
a， 处理 时 间 已 经 被 调整 过 ， 移 除了 从 磁盘 读 取 数据 集 的 时 间 。 我 们 也 使 用 之 前 所 提供 的 简单 实 





现 来 做 测试 。 

















.结构 大 小 是 在 给 出 数据 量 前 提 下 的 理论 值 ， 因 为 所 用 的 实现 没有 去 优化 。 








b 

c. 因为 Morris 计数 器 不 会 对 输入 去 重 ， 结 构 体 大 小 和 相对 误差 按照 值 的 总 数量 给 出 。 
d. 因为 一 些 编码 问题 ，datrie 树 不 能 加 载 所 有 的 键 。 
ce 

















LL 

















. 只 考虑 唯一 的 符号 ， 数 据 集 是 49558KB ， 考 虑 所 有 的 符号 ， 则 是 8.742GB。 


























作为 结果 , 无 论 你 是 否 使 月 


些 问题 , 以 及 你 如 何 能 够 最 


概率 数据 结构 , 你 应 该 总 是 记 住 你 打算 要 问 你 的 数据 哪 
高 效 地 存储 数据 以 便 去 问 那 些 特别 的 问题 。 这 可 能 归结 


于 使 用 一 种 特定 类 型 的 列表 , 使 用 一 种 特定 类 型 的 数据 库 索引 ,或 者 甚至 可 能 使 用 
一 个 概率 数据 结构 来 抛弃 掉 除了 相关 数据 以 外 的 所 有 数据 ! 
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第 12 章 


现场 教训 





读 完 本 章 之 后 你 将 能 够 回答 下 列 问 题 

。 ”成功 的 创业 公司 如 何 处 理 大 量 的 数据 和 机 器 学 习 ? 
。 ”什么 样 的 监控 和 部 署 技术 让 系统 保持 稳定 ? 

成 功 的 CTO 学 到 了 关于 技术 和 团队 的 什么 教训 ? 
。 PyPy 怎样 被 广泛 部 署 ? 


在 本 章 中 ， 我 们 从 成 功 的 公司 那 收集 了 一 些 故 事 ， 在 这 些 公司 里 Python 被 用 在 了 
大 数据 量 和 速度 关键 的 场景 下 。 这 些 故 事由 每 个 组 织 中 具有 多 年 经 验 的 关键 人 物 写 
成 。 他 们 不 仅 共享 了 技术 选择 , 而 且 也 分 享 了 一 些 经 过 努力 获得 的 来 之 不 易 的 智慧 。 


12.1 自 适应 实验 室 (Adaptive Lab) 的 社交 媒体 
分 析 (SoMA) 


Ben Jackson (adaptivelab.com) 






























































自 适应 实验 室 是 一 家 座 落 于 伦敦 的 技术 城市 (Tech City) 区 一 一 肖 尔 迪 奇 区 的 产品 
开发 和 创新 公司 。 我们 应 用 了 我 们 的 精益 生产 、 以 用 户 为 中 心 的 产品 设计 和 交付 方 
法 ， 与 包括 从 创业 公司 到 大 企业 在 内 的 许多 公司 展开 了 广泛 的 合作 。 

YouGov 是 一 家 全 球 市 场 研究 公司 ， 它 所 声称 的 雄心 抱负 就 是 提供 一 个 连续 的 、 准 
确 的 数据 流 来 洞 见 全 世界 的 人 们 在 想 什 么 和 做 什么 一 一 那 就 是 我 们 要 设法 提供 给 
它们 的 东西 。 自 适应 实验 室 设计 了 一 种 方式 来 被 动 倾听 发 生 在 社交 媒体 上 的 真实 的 
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讨论 , 并 且 洞 见 了 用 户 对 定制 范围 内 的 一 些 主题 上 的 情感 。 我 们 构建 了 一 个 可 扩展 
的 系统 ， 能 够 无 穷 无 尽 地 捕获 大 量 的 信息 流 ， 处 理 并 存储 它们 ， 还 能 够 通过 一 个 强 
大 的 可 过 滤 的 接口 来 实时 展现 它们 。 系 统 是 使 用 Python 来 构建 的 。 


12.1.1 自 适 应 实验 室 (Adaptive Lab) 使 用 的 Python 

Python 是 我 们 的 核心 技术 之 一 。 我 们 在 性 能 关键 的 应 用 中 使 用 它 ， 并 且 无 论 何 时 ， 
我 们 和 具有 公司 内 部 使 用 Python 技术 的 客户 一 起 工作 ， 这 样 我 们 为 客户 所 做 的 产 
品 能 够 在 客户 公司 内 部 被 采用 。 


Python 对 于 小 型 的 、 自 包含 的 并 且 长 期 运行 的 守护 进程 来 说 是 理想 的 ， 它 很 好 用 ， 
具有 类 似 Django 和 Pyramid 那样 灵活 而 特性 丰富 的 Web 框架 。Python 社区 是 繁荣 
的 , 这 意味 着 那里 有 大 量 的 开源 工具 库 来 允许 我 们 快速 而 充满 信心 地 去 构建 , 让 我 
们 集中 精力 于 新 型 的 、 创 新 性 的 东西 来 为 客户 解决 问题 。 


贯穿 于 我 们 整个 项 目的 是 , 我 们 在 自 适应 实验 室 复 用 了 用 Python 构建 的 几 个 工具 ， 
但 是 却 能 够 以 一 种 语言 无 关 的 方式 来 使 用 。 例 如 ， 我 们 使 用 了 SaltStack 来 做 服务 
器 配给 ， 使 用 了 Mozilla 的 Circus 来 管理 长 期 运行 的 进程 。 当 一 个 工具 是 开源 的 并 
且 以 我 们 所 熟悉 的 语言 来 写成 时 ， 所 带 给 我 们 的 好 处 就 是 如 果 我 们 发 现任 何 问题 ， 
我 们 能 够 自己 解决 ， 并 且 把 那些 解决 方案 提 上 去 ， 这 让 社区 也 得 到 收益 。 


12.1.2 ”SoMA 的 设计 

我 们 的 社交 媒体 分 析 工 具 需 要 处 理 高 吞吐 量 的 社交 媒体 数据 , 以 及 存储 和 获取 大 量 
的 实时 信息 。 在 研究 了 各 种 各 样 的 数据 存储 和 搜索 引擎 后 , 我们 决定 把 Elasticsearch 
作为 我 们 的 实时 文档 存储 。 就 如 它 的 名 字 所 示 的 那样 , 它 是 高 可 扩展 的 , 但 是 也 非 
常 容易 使 用 ， 而 且 能 够 提供 统计 和 搜索 的 应 答 一 一 对 我 们 的 应 用 来 说 是 理想 的 。 
Elasticsearch 本 身 是 用 Java 构建 的 , 但 是 就 像 任何 一 个 现代 系统 中 的 架构 良好 的 组 
件 那 样 ， 它 有 良好 的 API， 而 且 使 用 Python 库 和 教程 良好 地 为 它 服务 。 


我 们 设计 的 系统 使 用 了 在 Redis 中 所 持 有 的 Celery 作为 队列 来 快速 分 发 大 量 的 数据 
流 给 任意 数量 的 服务 器 来 做 独立 处 理 和 索引 。 整 个 复杂 系统 的 每 一 个 组 件 被 设计 得 
小 型 化 、 独 立 而 简单 , 并 且 能 够 相互 隔离 地 来 工作 。 每 一 个 组 件 集中 于 一 个 任务 上 ， 
比如 分 析 一 个 对 话 的 感情 色彩 或 者 准备 一 个 文档 来 索引 编 入 Elasticsearch。 一 些 组 
件 被 配置 成 使 用 Mozillar 的 Circus 以 守护 进程 的 方式 来 运行 ,让 所 有 的 进程 保持 运 
行 并 允许 它们 在 单独 的 服务 器 上 水 平 扩张 或 收缩。 


SaltStack 被 用 来 定义 和 配给 复杂 的 集群 ， 并 处 理 所 有 的 库 、 语 言 、 数 据 库 和 文档 存 
储 的 设置 。 我 们 也 使 用 Fabric， 一 个 在 命令 行 上 运行 任意 任务 的 Python 工具 。 在 
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代码 中 定义 服务 器 有 许多 益处 : 与 生产 环境 的 完全 对 等 , 配置 的 版 本 控制 , 把 所 有 
东西 放 在 了 一 起 。 它 也 为 配置 和 集群 所 需 依赖 项 的 文档 化 发 挥 了 作用 。 


12.1.3 我 们 的 开发 方法 论 

我 们 意图 让 项 目的 新 手 尽 可 能 容易 地 能 够 快速 而 有 信心 地 着 手 添加 代码 和 部 署 。 我 们 
使 用 Vagrant 来 在 本 地 构建 复杂 系统 ， 在 虚拟 机 内 部 完全 和 在 生产 环境 中 等 价 。 一 个 
简单 的 vagrant up 就 是 一 个 新 手 所 需 的 全 部 命令 来 着 手 设置 他 们 工作 所 需 的 所 有 依赖 。 


我 们 以 敏捷 方式 工作 , 一 起 计划 、 讨 论 架构 方面 的 决定 ,并且 在 任务 估计 上 达成 了 
一 致 。 对 于 SoMA 来 说 ， 我 们 决定 在 每 一 次 迭代 中 要 包括 一 些 被 视 作 修正 “技术 
债 ”的 任务 。 也 有 些 对 系统 进行 文档 化 的 任务 包括 了 进来 (我 们 最 终 建 设 了 一 个 维 
基 来 掌管 这 个 日 益 脱 胀 的 系统 的 所 有 知识 )。 在 每 个 任务 结束 后 ， 组 员 相 互 检查 代 
码 来 做 完整 性 检查 ， 提 供 反馈 并 理解 将 要 加 入 系统 中 的 新 代码 。 


一 个 良好 的 测试 套件 有 助 于 提升 信心 ， 任 何 改动 将 不 会 造成 已 经 存在 的 特性 失效 。 
集成 测试 在 一 个 类 似 SoMA 的 系统 中 至 关 重 要 ， 由 许多 移动 的 部 件 组 成 。 一 个 脚 
手 架 的 环境 提供 了 一 种 测试 新 代码 性 能 的 方法 。 尤 其 是 在 SoMA 上 ， 只 有 通过 在 
产品 中 所 见 到 的 那样 大 型 的 数据 集 上 做 测试 , 才能 让 问题 出 现 并 得 到 处 理 , 所 以 经 
党 需要 在 独立 的 环境 下 重 现 那 样 的 数据 量 。 亚 马 示 的 弹性 计算 云 (EC2) 带 给 我 们 
着 手 此 事 的 灵活 性 。 


12.1.4 维护 SoMA 

SoMA 系统 连续 运行 着 ,并 且 它 消费 的 信息 量 与 日 俱 增 。 我 们 不 得 不 对 数据 流 中 的 
峰值 、 网 络 问题 以 及 它 所 依赖 的 任何 第 三 方 服务 提供 者 中 的 问题 做 出 解释 。 因 此 ， 
为 了 让 我 们 自己 的 事情 变 得 简单 ，SoMA 被 设计 成 自我 修复 , 无 论 何 时 只 要 它 有 能 
力 就 自我 修复 。 多亏 了 Cireus， 崩 尝 的 进程 将 恢复 运行 并 从 它们 断 线 的 地 方 开始 继 
续 运 行 任务 。 一 个 任务 将 在 队列 中 缓存 起 来 ， 直 到 进程 能 够 消费 它 ， 并 且 当 系统 恢 
复 时 ， 有 足够 的 缓存 空间 来 堆积 任务 。 
我 们 使 用 Server Density 来 监控 许多 SoMA 服务 器 。 它 设置 起 来 很 简单 ， 但 是 相 
当 强 大 。 当 一 有 问题 可 能 要 发 生 时 ， 一 个 指派 的 工程 师 就 能 够 在 手机 上 接收 到 推 
送 消息 , 这样 他 可 以 及 时 做 出 反应 来 确保 它 不 要 变 成 一 个 真正 的 问题 。 使 用 Server 
Density， 用 Python 来 写 定制 插件 也 非常 容易 , 例如， 来 设置 Elasticsearch 表现 方 
四 的 快速 报警 。 


12.1.5 ”对 工程 师 同 行 的 建议 
最 主要 的 是 , 你 和 你 的 团体 需要 有 信心 并 感到 轻松 愉快 一 一 将 要 部 署 到 现场 环境 中 
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去 的 项 目 是 会 无 故障 运行 的 。 为 了 得 到 这 一 点 ， 你 必须 要 回溯 工作 ， 花 费时 间 在 系 
统 的 所 有 组 件 上 来 给 你 那 种 舒服 的 感觉 。 让 部 署 简单 并 且 安全 可 靠 ,使 用 一 个 脚 手 
架 环 境 来 测试 在 真实 世界 的 数据 下 的 性 能 , 确保 你 具有 一 个 良好 可 靠 的 高 覆盖 率 的 
测试 套件 ,实现 一 个 过 程 把 新 代码 整合 进 系统 中 ， 确 保 技 术 债 尽早 地 得 到 解决 。 你 
越 是 支撑 强化 你 的 技术 架构 并 且 提 高 你 的 过 程 , 你 的 团队 就 会 越 来 越 愉快 和 成 功 地 
来 把 合适 的 解决 方案 工程 化 。 


如 果 缺 少 扎实 的 代码 基础 和 生态 系统 , 但 是 商业 上 却 强迫 你 把 活 干 起 来 , 那 只 会 产 
生 有 问题 的 软件 。 那 将 是 你 的 责任 来 推动 并 争取 时 间 对 代码 、 测 试 以 及 需要 推 向 落 
地 的 运营 作 的 操作 做 出 增 量 式 的 改进 。 


12.2 使 用 RadimRehurek.com 让 深度 学 习 飞 翔 


Radim Rehiitek (radimrehurek.com) 


当 Ian 请 我 来 为 本 书写 写 我 在 Python 和 优化 方面 的 “来 自 现场 的 教训 ”时 , 我 立即 
思考 ,“ 告 诉 他 们 你 怎样 制作 了 一 个 比 Google 的 C 语言 原始 版 本 要 更 快 的 Python 
移植 版 !1”"。Google 的 深度 学 习 的 典型 代表 比 原始 的 Python 实现 快 了 12000 倍 ， 这 
是 一 个 创造 机 器 学 习 算 法 的 鼓舞 人 心 的 故事 。 任 何人 可 以 写 出 糟糕 的 代码 ,接着 再 
鼓吹 巨大 的 速度 提升 。 但 是 有 点 令 人 吃惊 的 是 ， 优 化 过 的 Python 移植 版 也 运行 得 
比 Google 团队 所 写 的 原始 代码 几乎 快 4 倍 ! 那 就 是 ， 比 星 涩 的 、 配 置 紧凑 的 优化 
过 的 C 代码 快 4 倍 。 


但 是 在 吸取 “机 器 层面 ”的 优化 教训 之 前 ， 有 一 些 通用 的 关于 “人 的 层面 ”的 优化 
建议 。 


12.2.1 最 佳 时 机 

我 运转 着 一 个 小 型 的 专注 于 机 器 学 习 的 咨询 业务 , 我 的 同事 和 我 帮助 公司 让 数据 分 
析 的 混乱 世界 变 得 有 意义 ， 目 的 是 赚钱 或 节省 成 本 (或 两 者 兼 得 )。 我 们 帮助 客户 
为 数据 处 理 设 计 和 构建 令 人 惊叹 的 系统 ， 尤 其 是 在 文本 数据 方面 。 

客户 范围 从 大 型 的 跨国 企业 到 新 生 的 初创 公司 , 尽管 每 个 项 目 各 不 相同 并 且 需 要 不 
同 的 技术 栈 来 插入 客户 已 经 存在 的 数据 流 和 管道 中 , Python 是 明显 的 优先 选择 。 不 
是 要 白费 口舌 ，Python 的 简单 直接 的 开发 哲学 、 可 塑性 ， 以 及 丰富 的 库 生 态 系统 让 
它 成 为 了 一 个 理想 的 选择 。 


首先 ， 一 些 “ 来 自 现 场 ”的 关于 是 什么 发 挥 着 作用 的 思考 : 
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沟通 ， 沟 通 ， 沟 通 。 这 很 明显 ， 但 值得 重复 提 及 。 在 决定 一 种 方法 前 ， 在 更 高 
的 层面 (业务) 上 理解 客户 的 问题 。 坐 下 来 谈 谈 他 们 认为 所 需要 的 东西 (基于 
在 联系 你 之 前 他 们 对 什么 是 有 可 能 做 的 以 及 /或 者 他 们 从 谷歌 上 搜索 到 的 片面 
的 知识 )， 直 到 对 他 们 真正 所 需 的 东西 一 清二 楚 ， 而 免 于 星 梁 和 偏见 。 要 事先 
对 验证 解决 方案 的 方式 达成 一 致 。 我 想 要 把 这 个 过 程 可 视 化 成 构筑 一 条 绵长 而 
折 的 道路 : 得 到 正确 的 开端 (问题 定义 ， 可 利用 的 数据 资源 ) 和 正确 的 终点 
评估 ， 解 决 方案 的 优先 级 ) ， 以 及 属于 这 两 者 之 间 的 路 径 。 


寻找 有 前 途 的 技术 。 一 个 得 到 良好 理解 的 、 健 壮 的 、 正 在 得 到 关注 的 ， 然 而 在 
工业 领域 还 是 相对 模糊 的 新 兴 技术 能 够 给 客户 (或 你 自己 ) 带 来 巨大 的 价值 。 
例如 ， 几 年 前 ，Elasticsearch 是 一 个 罕 为 人 知 的 有 一 些 粗糙 的 开源 项 目 。 但 是 
我 评估 了 它 的 方法 ， 认 为 它 是 扎实 的 (构建 于 Apache Lucene 之 上 ， 提 供 了 副 
本 、 集 群 分 片 等 ) 并 把 它 的 用 途 推荐 给 了 客户 。 结 果 我 们 使 用 Elasticsearch 作 
为 核心 构建 了 一 个 搜索 系统 ， 相 比 可 观 的 替代 方案 (大 型 的 商业 数据 库 )， 帮 
客户 省 下 了 在 版 权 、 开 发 和 维护 方面 的 巨额 资金 。 甚 至 更 重要 的 就 是 ， 使 用 一 
个 办 新 的 、 灵 活 又 强大 的 技术 给 产品 带 来 了 巨大 的 竞争 优势 。 现 在 ， 
Elasticsearch 已 经 进入 了 企业 市 场 并 传递 出 无 与 伦比 的 竞争 优势 每 个 人 都 
知道 和 使 用 它 。 掌 握 正 确 的 时 机 就 是 我 所 能 声称 的 “最 佳 时 机 ”， 让 价值 /成 本 
之 比 达 到 最 大 化 。 


KISS (让 它 简单 ， 轧 大!) 这 是 男 一 种 不 必 花 脑筋 的 事 。 最 好 的 代码 就 是 你 不 
必 编 写 和 维护 的 代码 。 从 简单 开始 ， 并 且 在 必须 的 地 方 改 进 和 迭代 。 我 倾向 于 
遵循 UNIX 的 “做 一 件 事 情 ， 并 把 它 做 好 ”哲学 的 工具 。 宏 伟 的 编程 框架 可 能 
是 吸引 人 的 ， 让 每 样 可 设想 到 的 事情 处 于 同一 屋檐 下 并 且 干 净 地 适 配 在 一 起 。 
但 是 你 迟早 总 是 需要 一 些 巨大 的 框架 所 设想 不 到 的 东西 ,然后 甚至 看 起 来 简单 
(从 概念 上 ) 的 改动 串联 起 了 一 场 疆 梦 (从 编程 角度 而 言 )。 宏 伟 的 项 目 以 及 它 
们 所 包含 的 全 部 APIs 在 它们 自身 的 重量 下 趋向 于 前 省 。 要 使 用 模块 化 、 专 注 
的 、 尽 可 能 短小 而 简单 的 工具 。 要 倾向 于 对 简单 的 可 视 化 检查 开放 的 文本 格式 ， 
不 然 除 非 是 性 能 上 的 强行 规定 。 


在 数据 管道 中 使 用 手动 的 完整 性 检查 。 当 优化 数据 处 理 系 统 时 , 容易 停留 在 “二 
进 制 的 思维 ”模式 中 ,使 用 紧凑 的 管道 .高效 的 二 进 制 数 据 格式 和 压缩 过 的 LO。 
当 数 据 以 不 可 见 和 未 经 检查 的 (可 能 除了 它 的 类 型 ) 方式 通过 系统 时 ， 它 保持 
着 不 可 见 性 ， 直到 某 些 情况 彻底 爆发 。 然 后 调试 开始 。 我 建议 把 一 些 简单 的 日 
志 消 息 撒 遍 整个 代码 , 把 在 各 种 不 同 的 内 部 处 理 点 上 展示 数据 的 形态 看 作 一 个 
良好 的 实践 一 一 没有 什么 花哨 的 ， 只 是 模拟 UNIX 的 head 命令 ， 挑 选 并 对 一 
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些 数 据点 做 可 视 化 。 这 样 不 仅 有 助 于 前 面 提 到 过 的 调试 , 而 且 以 人 类 可 读 的 格 
式 看 到 数据 经 常会 令 人 惊讶 地 产生 “ 啊 ! ”的 时 刻 ， 甚 至 于 在 一 切 看 起 来 都 良 
好 的 情况 下 。 奇 怪 的 符号 化 ! 它们 承诺 的 输出 总 是 以 latinl 来 编码 ! 这 种 语言 
的 文档 怎么 会 出 现在 那里 ? 图 像 文件 泄漏 到 了 期 竺 和 解析 文本 文件 的 管道 中 ! 
这 些 常常 超越 了 由 自动 类 型 检查 或 者 固定 的 单元 测试 所 提供 的 认识 力 , 上 暗示 着 
跨越 组 件 边界 的 问题 。 真 实 世界 的 数据 是 混乱 的 。 早 期 捕获 到 事件 甚至 不 一 定 
会 产生 异常 或 者 明显 的 错误 。 宁 可 失 之 于 过 度 见 长 。 


。 小 心地 在 潮流 中 导航 。 只 是 因为 一 个 客户 一 直 听 说 X 并 说 出 他 们 必须 也 要 X 
并 不 意味 着 他 们 真正 需要 它 。 它 可 能 是 一 个 市 场 问题 而 不 是 一 个 技术 问题 ， 所 
以 要 仔细 分 辨 并 相应 地 传达 。X 随时 间 变 化 ， 因 为 炒作 的 浪 漳 来 来 去 去 ， 一 个 
最 近 的 值 将 会 是 X= 大 数据 。 


总 之 ， 谈 论 业务 足够 了 一 一 这 就 是 我 如 何 用 Python 获得 了 比 C 运行 更 快 的 


Word2vec 。 


12.2.2 ”优化 方面 的 教训 
word2vec 是 一 个 允许 检测 相似 单词 和 短语 的 机 器 学 习 算法 。 随 着 文本 分 析 和 搜索 
引擎 优化 (SEO) 方面 的 有 趣 应 用 以 及 附 于 其 上 的 谷歌 的 光辉 品牌 ， 初 他 公司 和 业 
务 蜂拥 而 上 地 利用 起 这 个 新 工具 。 


不 幸 的 是 ， 唯 一 可 利用 的 代码 就 是 由 谷歌 自己 所 生产 的 ， 一 个 用 C 语言 编写 的 开 
源 Linux 命令 行 工 具 。 这 个 工具 得 到 了 良好 的 优化 ,但 是 相当 难以 用 来 实现 。 我 决 
定 要 把 word2vec 移植 到 Python 上 的 主要 理由 就 是 我 能 够 把 word2vec 扩展 到 其 他 
的 平台 ， 让 它 更 易于 为 客户 集成 和 扩展 。 


在 这 里 不 关乎 细节 ， 但 是 word2vec 需要 一 个 具有 很 多 输入 数据 的 训练 阶段 来 产生 
有 用 的 相似 模型 。 例 如 ,谷歌 的 工程 师 们 在 他 们 的 GoogleNews 数据 集 上 运行 
word2vec， 训 练 了 大 约 1000 亿 个 单词 。 这 种 尺度 的 数据 集 明 显 不 适合 放 和 人 RAM 
1， 所 以 必须 采用 一 个 节约 内 存 的 方法 。 

我 已 创造 了 一 个 机 器 学 习 库 gensim， 目 标准 确定 位 于 这 种 内 存 优 化 的 问题 : 数据 
集 不 再 是 小 规模 (“小 规模 ”就 是 任何 能 完全 放 入 RAM 中 的 事物 ) ， 而 又 没 足够 大 
到 有 必要 使 用 PB 字 节 规模 的 MapReduce 计算 机 集群 的 地 步 。 邻 人 惊奇 的 是 , 这 个 
“ 千 兆 ”范围 的 问题 适合 于 真实 世界 的 一 大 部 分 情况 ， 包 括 word2vec。 


细节 在 我 的 博客 上 有 描述 ， 但 是 这 里 有 一 些 外 带 的 优化 : 
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流 化 你 的 数据 ， 观 察 你 的 内 存 。 让 你 的 输入 按照 一 次 一 个 数据 点 的 方式 被 访问 和 
处 理 ， 目 的 是 得 到 一 个 小 而 固定 的 内 存 占用 空间 。 流 化 的 数据 点 (在 word2vec 
的 情况 下 是 句子 ) 可 能 为 了 性 能 在 内 部 被 组 织 成 更 大 的 批量 〈 例 如 同一 时 刻 处 理 
100 条 句子 ) ， 但 是 高 级 的 、 流 化 的 API 证 实 了 一 种 强大 而 又 灵活 的 抽象 。Python 
语言 使 用 它 内置 的 产生 器 , 很 自然 和 优雅 地 支持 这 种 模式 场 真正 优美 的 问 
题 和 技术 的 竞赛 。 避 免 致力 于 那些 把 一 切 都 装载 进 RAM 中 的 算法 和 工具 ， 除 非 
你 知道 数据 总 是 保持 小 规模 ， 或 者 你 不 介意 以 后 自己 去 重新 实现 一 个 生产 版 本 。 


利用 Python 的 丰富 生态 系统 。 我 从 一 个 可 读 的 、 使 用 numpy 的 干净 的 word2vec 
的 移植 版 开始 。Numpy 在 本 书 的 第 6 章 中 被 深度 地 涉猎 到 了 ， 但 是 作为 一 个 
短小 的 提醒 ， 这 是 一 个 美妙 的 库 ， 是 Python 科学 社区 的 基石 ， 是 用 Python 做 
数字 爆破 的 事实 标准 。 挖 气 numpy 的 强大 数组 接口 、 内 存 访问 模式 以 及 为 超 
速 的 通用 矢量 操作 所 包装 的 BLAS 例 程 产生 了 简洁 ,干净 和 快速 的 代码 一 一 比 
原生 的 Python 代码 要 快 好 几 百 倍 。 通 常 我 在 这 点 上 就 此 打住 ， 但 是 “ 几 百 倍 
更 快 ”还 是 比 谷歌 优化 过 的 C 版 本 要 慢 20 倍 ， 所 以 我 要 强调 一 下 。 


配置 和 编译 热点 。word2vect 是 一 个 典型 的 高 性 能 计算 应 用 ， 因 为 在 一 个 内 循 
环 中 的 少数 几 行 代码 占用 了 90% 的 整体 训练 运行 时 间 。 在 这 里 ， 我 用 C 重 写 
了 一 个 单独 的 核心 例 程 (大 约 20 行 代码 ) ,使 用 一 个 外 部 的 Python 库 ,把 Cython 
作为 胶水 。 尽 管 技术 上 光彩 夺目 ， 我 却 不 认为 Cython 从 概念 上 是 一 个 特别 方 
便 的 工具 一 它 基本 上 就 像 在 学 习 一 门 其 他 语言 ,一 种 在 Python、numpy 和 C 
之 间 的 非 直觉 的 混合 物 , 而 有 它 自己 的 说 明和 特质 。 但 是 直到 Python 的 JIT ( 即 
时 编译 器 ) 技术 成 熟 前 ，Cython 可 能 就 是 我 们 的 最 佳 赌注 。 使 用 一 个 Cython 
编译 成 的 热点 ，word2vec 的 Python 移植 版 本 的 性 能 现在 与 原来 的 C 代码 不 相 
上 下 。 从 一 个 干净 的 numpy 版 本 开始 的 另 一 个 优势 就 是 通过 与 更 慢 但 是 正确 
的 版 本 做 对 比 ， 我 们 就 得 到 了 免费 的 正确 性 测试。 


知道 你 的 BLAS。numpy 的 一 个 干净 特性 就 是 它 内 部 在 可 利用 的 地 方 包装 了 
BLAS (基础 线性 代数 子 例 程 )。 这 些 是 低级 的 例 程 集合 ， 直 接 通过 处 理 器 供应 
商 (英特尔 、AMD 等 ) 使 用 汇编 、Fortran 或 者 C 来 做 优化 ， 被 设计 用 于 从 一 
种 特定 的 处 理 器 架构 中 挤 榨 出 最 佳 的 性 能 。 例 如 ， 调 用 一 个 axpy 的 BLAS 例 
程 来 计算 vector y += scalar * Vector x, 这样 比 通用 的 编译 器 为 一 
个 等 价 的 显 式 的 循环 所 产生 的 代码 要 更 快 。 把 word2vec 的 训练 表示 成 BLAS 
操作 导致 了 额外 的 4 倍速 度 提升 , 胜 过 了 C 版 本 的 word2vec 的 性 能 。 获胜 了 1 
公平 来 说 ，C 代码 也 能 够 链接 BLAS， 所 以 这 不 是 Python 与 生 俱 来 的 优势 。 
numpy 只 是 让 诸如 此 类 的 事物 突显 出 来 并 让 它们 变 得 容易 利用 。 
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并 行 化 和 多 核 。gensim 包含 了 一 些 算法 的 分 布 式 集群 实现 。 对 于 word2vec 
来 说 ， 我 选取 了 在 一 台 机 器 上 的 多 线程 方式 ， 因 为 它 的 训练 算法 具有 细 粒 度 
的 本 质 。 使 用 多 线程 也 允许 我 们 避免 Python 多 进程 所 带 来 的 fork-without-exec 
的 POSIX 问题 , 尤其 是 在 与 某 些 BLAS 库 混 用 的 时 候 。 因 为 我 们 的 核心 例 程 
已 经 使 用 了 Cython ， 我 们 能 够 担负 起 释放 Python 的 GIL (全 局 解释 器 锁 ， 请 
看 7.8 节 中 的 “在 一 台 机 器 上 使 用 OpenMP 来 做 并 行 解决 方案 ”)， 这 通常 使 
得 多 线程 对 于 CPU 密集 型 任务 无 效 。 速 度 提升 : 在 一 台 机 器 上 使 用 4 核 另 外 
又 提高 了 3 倍 。 


静态 内 存 分 配 。 在 这 点 上 ,我们 每 秒 处 理 好 几 万 条 句子 。 训 练 是 如 此 快速 ， 甚 
至 于 没有 什么 类 似 于 创建 一 个 新 的 numpy 数组 〈 对 每 一 个 句子 流 调用 malloc) 
那样 拖 慢 我 们 的 速度 。 解 决 方案 : 预 分 配 静 态 的 “工作 ”内 存 并 以 良好 的 老 
Fortran 的 风格 来 周转 。 让 我 流泪 了 。 在 这 里 的 教训 就 是 尽量 在 干净 的 Python 
代码 中 保持 记 账 和 应 用 逻辑 ， 并 且 要 让 优化 过 的 热点 保持 精简 。 


具体 问题 的 优化 。 原 来 的 C 语言 实现 包含 了 具体 的 微观 优化 , 例如 在 特定 的 内 
存 边界 对 齐 数组 或 者 在 内 存 的 查找 表 中 预先 计算 某 些 函数 。 一阵 来 自 过 去 的 令 
人 怀念 的 风气 ， 随 着 如 今 复杂 的 CPU 指令 流水 线 、 内 存 缓存 层级 以 及 协 处 理 
器 ， 这 种 优化 已 不 再 是 确定 的 赢家 。 细 心 的 剖析 暗示 着 一 定 百 分 比 的 提高 ， 可 
能 不 值得 为 之 付出 额外 的 代码 复杂 性 。 另 外 ,使 用 注解 和 剖析 工具 来 高 亮 出 优 
化 不 够 的 点 。 使 用 你 的 领域 知识 来 引入 以 准确 度 换 取 性 能 (或 反之 ) 的 渐进 算 
法 。 但 是 从 不 要 把 它 当 作 信 条 ， 齐 析 倾 向 于 使 用 真实 的 生产 数据 。 































































































12.2.3 总 结 

在 合适 的 地 方 优化 。 以 我 的 经 验 来 看 ， 从 来 没有 充分 的 沟通 来 完全 确认 问题 范围 、 
优先 级 以 及 和 客户 业务 目标 的 关系 一 一 即 “ 人 的 层面 ”上 的 优化 。 确 认 你 交付 了 相 
关 的 问题 ， 而 不 是 为 它 迷 失 在 “ 极 客 工 具 ” 中 。 当 你 卷 起 袖子 准备 干 活 时 ,让 它 值 
得 去 做 ! 


12.3 在 Lyst.com 的 大 规模 产品 化 的 机 器 学 习 


Sebastian Trepca (lyst.com) 

Lyst.com 是 一 个 位 于 伦敦 的 时 尚 推荐 引擎 ,每 个 月 有 超过 2 000 000 个 用 户 通过 Lyst 
的 艰苦 抓 取 、 清 理 和 建 模 过 程 来 学 习 到 新 时 尚 。 它 成 立 于 2010 年 ， 得 到 了 2 000 
万 美元 的 融资 。 
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Sebastjan Trepca 是 技术 创立 者 和 CTO ， 他 使 用 Django 创建 了 网 站 ，Python 已 经 帮 
助 了 团队 来 快速 地 测试 新 的 想法 。 


12.3.1 ”Python 在 Lyst 的 地 位 
自从 网 站 创建 以 来 ，Python 和 Django 就 已 经 是 Lyst 的 核心 了 。 随 着 内 部 的 项 目 成 
长 ， 一 些 Python 组 件 被 其 他 工具 和 语言 取代 来 适应 系统 不 断 成 熟 的 需求 。 


12.3.2 集群 设计 
集群 运行 于 亚马逊 的 EC2 上 。 总 共有 大 约 100 台 机 器 ,包括 更 新 的 C3 实例 , 具有 
良好 的 CPU 性 能 。 


Redis 和 PyRes 一 起 作为 队列 来 使 用 并 存储 元 数据 。 主 要 数据 格式 是 JSON, 目的 
是 让 人 易于 理解 。Supervisorq 让 进程 保持 活跃 。 


Elasticsearch 和 PyES 被 用 来 索引 所 有 的 产品 。Elasticsearch 集群 跨越 7 台 机 器 存储 
了 6 千 万 个 文档 。Solr 被 调研 过 ， 但 是 因为 缺少 实时 的 更 新 特性 而 评价 不 高 。 


12.3.3 ”在 快速 前 进 的 初创 公司 中 做 代码 评估 

写 出 能 够 被 快速 实现 的 代码 更 佳 , 这 样 一 个 商业 上 的 想法 就 能 够 被 测试 了 , 而 不 是 
花费 大 量 时 间 企 图 在 第 一 遍 就 写 出 “完美 的 代码 ”。 如 果 代 码 是 有 用 的 ， 那 么 它 训 
能 被 重 构 ， 如 果 在 代码 背后 的 想法 是 糟糕 的 ， 那 么 删除 并 移 除 一 个 特性 是 代价 低廉 
的 。 这 可 能 导致 一 个 复杂 的 基础 代码 ， 有 许多 对 象 传 来 传 去 ， 但 是 只 要 团队 花费 时 
间 去 重 构 对 业务 有 用 的 代码 ， 这 就 是 可 接受 的 。 


文档 字 串 (docstring) 在 Lyst 中 使 用 很 多 一 一 尝试 过 一 个 外 部 的 Sphinx 文档 系统 
但 是 放弃 了 , 仅仅 是 为 了 方便 阅读 代码 。 一 个 维基 被 用 来 对 过 程 和 更 大 的 系统 做 文 
档 化 。 我 们 也 开始 创建 很 小 的 服务 ， 而 不 是 把 一 切 都 塞 进 一 份 基础 代码 中 。 


12.3.4 构建 推荐 引擎 

首先 推荐 引擎 用 Python 来 编码 ， 使 用 numpy 和 scipy 来 计算 。 接 下 来 ， 推 荐 引 
擎 的 性 能 关键 部 分 使 用 Cython 来 加 速 。 核 心 的 矩阵 分 解 运 算 完 全 用 Cython 来 写 ， 
产生 了 一 个 数量 级 的 速度 提升 。 这 主要 归 因 于 有 能 力 写 出 超过 Python 中 的 numpy 
数组 的 高 效 循环 ， 当 矢量 化 时 ， 有 些 东西 用 纯粹 的 Python 特别 慢 ， 性 能 糟糕 ， 
为 它 需要 numpy 数组 的 内 存 拷贝 。 罪魁 祸首 就 是 numpy 中 的 复杂 索引 ,总 是 要 对 
被 切片 的 数组 创建 一 份 数据 拷贝 : 如 果 数 据 找 贝 不 是 必要 的 或 者 故意 要 做 的 ， 
Cython 的 循环 将 会 快 得 多 。 
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随 着 时 间 的 推移 ， 系 统 的 在 线 组 件 (负责 在 请 求 时 执行 推荐 计算 ) 被 集成 进 了 我 们 
的 搜索 组 件 Elasticsearch 中 。 在 这 个 过 程 中 ， 它 们 被 翻译 成 了 Java 来 允许 与 
Elasticsearch 做 集成 。 这 背后 的 主要 原因 不 是 因为 性 能 ， 而 是 因为 要 让 推荐 引 敬 与 
一 个 完整 而 强大 的 搜索 引擎 做 集成 的 用 途 , 以 允许 我 们 更 容易 地 把 业务 规则 应 用 于 
所 服务 的 推荐 上 来 。Java 组 件 本 身 就 特别 简单 , 并 实现 了 主要 的 高 效 稀 朴 矢量 内 积 。 
更 复杂 的 离线 组 件 还 是 用 Python 来 号 ， 使 用 了 Python 科学 栈 (主要 是 Python 和 
Cython) 的 标准 组 件 。 


根据 我 们 的 经 验 , Python 作为 一 种 原型 语言 更 有 用 : 类似 numpy、Cython 和 weave 
(更 近 的 有 Numba) 这 样 可 利用 的 工具 允许 我 们 在 代码 中 的 性 能 关键 部 分 取得 十 分 
良好 的 性 能 ， 然 而 却 还 是 保留 了 Python 的 干净 和 强大 的 表达 力 ， 而 低级 的 优化 将 
会 事与愿违 。 


12.3.5 ”报告 和 监控 

Graphite 被 用 来 做 报告 。 当 前 ， 性 能 退化 在 部 署 之 后 能 够 用 肉眼 看 到 。 这 样 就 容易 
深入 探查 详细 的 事件 报告 或 者 缩小 来 看 到 站 点 行为 的 高 层次 报告 并 添加 或 者 移 除 
必要 的 事件 。 


一 个 为 性 能 测试 所 做 的 更 大 的 基础 设施 正在 做 内 部 设计 。 它 将 包括 代表 性 的 数据 和 
用 户 场景 来 适当 地 测试 新 构建 的 站 点 。 


一 个 作为 脚手架 的 站 点 也 会 被 用 来 让 一 小 部 分 真正 的 访问 者 看 到 部 署 的 最 新 版 本 
如 果 看 到 一 个 错误 或 者 性 能 退化 , 那么 它 只 会 影响 一 小 部 分 访问 者 , 这 个 版 本 
能 够 快速 地 回 退 。 这 将 使 得 有 错误 的 部 署 明 显 地 降低 成 本 并 减少 问题 。 


Sentry 被 用 来 记录 和 诊断 Python 的 栈 跟 踪 信 息 。 


Jekins 被 用 来 和 内 存 数据 库 配 置 做 连续 集成 。 这 就 能 够 做 并 行 化 的 测试 来 让 签 入 快 
速 地 暴露 任何 错误 给 开发 者 。 


12.3.6 一 些 建议 

有 良好 的 工具 来 跟踪 你 所 构建 的 东西 的 效能 是 真正 重要 的 , 并 且 在 一 开始 是 超级 实 
用 的 。 初创 公司 一 直 在 变化 并 且 工 程 不 断 地 在 演化 : 你 从 一 个 强烈 探索 性 的 阶段 开 
始 , 用 所 有 的 时 间 构 建 原型 并 删除 代码 ， 直 到 你 命中 了 金 矿 ,然后 你 开始 向 更 深 处 
前 进 ， 提 高 代码 和 性 能 等 。 直 到 那 时 ,一切 都 和 快速 迭代 以 及 良好 的 监控 /分 析 有 
关 。 我 猜测 这 是 重复 了 一 遍 又 一 遍 的 相当 标准 的 建议 ,但 是 我 想 很 多 人 没有 真正 体 
会 到 它 是 多 么 重要 。 
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我 不 认为 如 今 技 术 有 多 大 影响 , 所 以 使 用 任何 能 为 你 工作 的 东西 。 然 而 在 转移 到 类 
似 AppEngine 或 者 Heroku 之 类 的 寄宿 环境 之 前 ， 我 要 三 思 而 行 。 


12.4 在 Smesh 的 大 规模 社交 媒体 分 析 


Alex Kelly (sme.sh) 


在 Smesh， 我们 生产 的 软件 所 摄取 的 数据 来 自 于 过 及 Web 的 多 种 多 样 的 API， 过 
滤 、 处 理 并 聚合 它们 ， 然 后 使 用 数据 来 为 各 种 客户 构建 定制 的 应 用 。 例 如 ， 我 们 
提供 了 技术 在 Beamly 的 双 屏 TV 应 用 中 推进 了 推 特 消息 (tweet) 的 过 滤 和 流 化 ， 
为 移动 网 络 EE 运行 了 一 个 品牌 和 营销 监控 平台 ,以 及 为 谷歌 运行 了 一 堆 Adwords 
数据 分 析 项 目 。 


为 了 做 到 那样 , 我 们 运行 了 各 种 各 样 的 流 和 轮 询 服 务 , 经 常 性 地 轮 询 推 特 (Twitter)、 
Facebook、YouTube 和 许多 其 他 内 容 服 务 ， 并 每 天 处 理 几 百 万 条 推 特 消息 。 


12.4.1 Python 在 Smesh 中 的 角色 
我 们 广泛 地 使 用 了 Python 一 一 我 们 的 主要 平台 和 服务 使 用 它 来 构建 .多 种 不 同 的 可 
利用 的 库 、 工 具 和 框架 允许 我 们 为 所 做 的 大 多 数 事 情 来 全 盘 使 用 它 。 


这 种 多 样 性 带 给 我 们 能 力 来 (有 和 希望 ) 为 工作 挑选 出 合适 的 工具 。 例 如 ， 我 们 已 经 
创建 了 使 用 每 一 个 Django、Flask 和 Pyramid 的 应 用 。 每 一 个 都 有 它 的 好 处 ， 我 们 
能 够 为 手头 的 任务 挑选 出 合适 的 一 个 。 我 们 为 多 任务 使 用 Celery， 为 和 AWS 交互 
使 用 Boto , 并 为 我 们 数据 所 需 的 一 切 使 用 PyMongo、MongoEngine .redis-py、Psycopg 
等 。 这 个 列表 将 不 断 延 伸 下 去 。 


12.4.2 平台 

我 们 的 主要 平台 由 一 个 中 心 Python 模块 组 成 ， 为 数据 和 输入、 过滤 、 聚 合 和 处 理 提 
具 了 钧 子 ， 还 有 多 种 其 他 的 核心 函数 。 项 目的 具体 代码 从 那个 核心 中 导入 功能 ， 然 
后 根据 每 个 应 用 的 需求 实现 更 多 具体 的 数据 处 理 和 展现 逻辑 。 


直到 现在 平台 为 我 们 工作 良好 , 并 允许 我 们 构建 相对 复杂 的 应 用 来 摄取 和 处 理 来 自 
多 种 多 样 不 同 源 的 数据 ， 而 没有 较 多 的 重复 的 工作 量 。 无 论 如 何 ， 它 不 是 没有 缺点 
每 个 应 用 依赖 于 一 个 公共 的 核心 模块 ， 使 得 更 新 代码 的 过 程 位 于 那个 模块 中 ， 
且 让 所 有 使 用 它 的 应 用 保持 更 新 成 了 一 项 主要 任务 。 


当前 我 们 工作 于 一 个 项 目 上 来 重新 设计 核心 软件 并 且 前 进 到 一 个 更 加 面向 服务 的 
架构 (SoA) 的 方法 中 去 。 当 平台 成 长 时 ， 寻 找 合适 的 时 机 来 做 出 那 种 架构 变化 似 
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乎 是 大 多 数 软件 团队 所 面临 的 一 项 挑战 。 把 组 件 构建 成 单独 的 服务 具有 开销 , 并且 
所 需要 的 用 来 构建 每 个 服务 的 深入 的 领域 特定 知识 经 常 只 有 通过 一 个 初始 的 迭代 
开发 才能 掌握 ,架构 的 开销 对 于 解决 手头 的 真正 问题 是 一 个 阻碍 。 有 希望 的 是 ,我 
























































们 已 经 选择 了 一 个 明智 的 时 机 来 重新 审视 我 们 的 架构 抉择 从 而 继续 前 进 。 交 给 时 间 








来 说 话 。 


12.4.3 ”高 性 能 的 实时 字符 串 匹 配 

我 们 从 推 特 的 流 API 中 消费 了 许多 数据 。 当 我 们 在 推 特 消息 中 流动 时 , 我 们 把 输入 
字符 串 与 一 组 关键 字 做 匹配 , 这 样 我 们 就 知道 我 们 正在 跟踪 的 每 条 推 特 消息 与 哪个 
词 项 有 关 。 这 不 是 那 种 具有 低速 率 的 输入 或 者 小 关键 字 集 的 问题 , 而 是 为 每 秒 几 百 
条 推 特 消息 与 几 百 个 或 几 千 个 可 能 的 关键 字 做 匹配 ， 从 而 问题 开始 变 得 棘手 。 






















































































我 们 不 仅 对 关键 字 字 符 串 是 否 存在 于 推 符 消息 中 感 兴趣 , 而 且 对 更 复杂 的 模式 与 单 














词 的 边界 ， 行 的 起 始 和 结束 以 及 可 选用 的 作为 字符 串 前 缀 的 # 和 @ 字符 是 否 匹 配 
感 兴趣 , 这 使 得 问题 变 得 更 加 棘手 。 最 有 效 的 封装 匹配 知识 的 方法 就 是 使 用 正则 表 
达 式 ,无 论 如 何 , 在 每 秒 几 百 条 推 特 消息 上 运行 几 千 个 正则 表达 式 是 计算 密集 型 的 。 
之 前 ， 我 们 不 得 不 在 集群 机 器 上 运行 许多 工作 节点 来 实时 可 靠 地 执行 匹配 。 


















































知道 这 是 系统 中 的 主要 性 能 瓶颈 之 后 , 我 们 尝试 了 各 种 不 同方 法 来 提高 我 们 匹配 系 











统 的 ， 


ec 


生 能 : 简化 正则 表达 式 , 运行 足够 的 进程 来 确保 我 们 充分 利用 了 服务 器 的 所 有 














核 ， 确 保 我 们 的 所 有 正则 表达 式 被 编译 过 了 ， 得 到 了 合适 的 缓存 ， 以 及 在 PyPy 下 
运行 匹配 任务 , 而 不 是 在 CPython 下 等 ,这 些 中 的 每 一 个 做 法 都 提升 了 一 点 点 性 能 ， 
但 是 要 明白 这 种 方式 只 是 减少 了 我 们 的 一 小 部 分 处 理 时 间 。 我 们 正 寻找 一 个 数量 级 












































的 速度 提升 ， 而 不 是 一 小 部 分 改进 。 











已 经 很 明显 了 ， 比 起 尝试 提高 每 一 次 匹 


























的 性 能 ， 我 们 需要 在 模式 匹配 发 生前 ， 降 








低 问 题 空间 大 小 。 这样 我 们 需要 减少 要 人 处理 的 推 符 消息 的 数量 , 或 者 减少 我 们 所 需 
要 去 匹配 推 特 消息 的 正则 表达 式 的 数量 ,抛弃 到 来 的 推 符 消息 不 是 一 个 选项 一 一 那 
是 我 们 感 兴趣 的 数据 。 所 以 , 我 们 想方设法 减少 我 们 所 需 的 的 模式 数量 来 与 到 来 的 
































推 特 消息 做 比较 ， 从 而 执行 匹配 。 














我 们 开始 看 看 各 种 不 同 的 trie 树 结构 来 允许 我 们 更 高 效 地 在 多 组 字符 串 之 间 做 模式 


匹配 , 并 且 遇 到 了 Aho-Corasick 字符 串 匹 配 算法 。 它 被 证 明 对 于 我 们 的 使 用 场景 是 









































理想 的 。 构建 trie 树 的 字典 必须 是 静态 的 且 自 动 化 结束 ， 你 不 能 给 trie 树 添 





加 新 成 员 








但 对 我 们 来 说 , 这 不 是 问题 , 因为 关键 字 集 合 在 来 自 推 特 的 一 个 会 话 
流 的 持续 时 间 里 是 静态 的 。 当 我 们 改变 正在 跟踪 的 词 项 时 , 我 们 必须 从 API 断 开 并 
重新 连接 上 API， 这 样 我 们 就 能 同时 重建 Aho-Corasick trie 树 。 
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使 用 Aho-Corasick 来 对 照 字 符 串 处 理 输入 同时 找到 所 有 可 能 的 匹配 ,在 一 个 时 刻 每 
步 向 前 经 过 输入 字 串 的 一 个 字符 ， 并 且 沿 着 trie 树 向 下 在 下 一 层 找 到 匹配 的 节点 
(或 者 没有 找到 ， 就 如 在 案例 中 可 能 的 那样 )。 这 样 ， 我 们 就 能 很 快 找到 我 们 的 哪 
一 个 关键 词 项 可 能 存在 于 推 特 消 息 中 。 我 们 还 是 无 法 确切 知道 ,因为 Aho-Corasick 
中 纯粹 的 字 串 与 字 串 间 的 匹配 不 允许 应 用 任何 封装 在 正则 表达 式 中 的 更 复杂 的 
逻辑 , 但 是 我 们 能 够 把 Aho-Corasick 匹配 作为 一 个 预 过 滤器 来 使 用 。 不 在 字符 串 
中 的 关键 字 无 法 匹配 ， 这 样 基于 出 现在 文本 中 的 关键 字 ， 我 们 就 知道 仅仅 只 须 尝 
试 我 们 所 有 的 正则 表达 式 中 的 一 个 小 小 的 子 集 。 我 们 排除 了 绝 大 部 分 正则 表达 式 
并 且 对 每 条 推 特 消息 只 需要 处 理 极 少数 表达 式 ， 而 不 是 对 照 每 条 输入 评估 成 百 上 
千 个 正则 表达 式 。 


通过 把 我 们 试图 为 每 条 推 特 消息 来 做 匹配 的 模式 数量 降低 到 极 少 值 , 我 们 已 经 设法 
达成 了 我 们 所 寻求 的 速度 提升 。 依 赖 于 trie 树 的 复杂 性 以 及 输入 推 特 消息 的 平均 长 
度 ， 我们 的 关键 字 匹 配 系统 现在 比 原始 的 实现 要 快 10 到 100 倍 。 


如 果 你 正在 做 许多 正则 处 理 , 或 者 其 他 的 模式 匹配 , 我 强烈 推荐 挖 气 下 各 种 不 同 的 
前 级 和 后 级 trie 树 的 变 体 ， 可 能 会 有 助 于 你 迅速 找到 问题 的 快速 解决 方案 。 


12.4.4 报告、 监控 、 调 试 和 部 署 
我 们 维护 了 大 量 运行 于 我 们 的 Python 软件 以 及 其 余 支撑 它 的 基础 设施 之 上 的 不 同 
系统 。 让 它 保持 上 线 并 无 中 断 运行 是 有 难度 的 。 这 里 有 一 些 我 们 在 途中 所 学 习 到 的 
教训 。 


无 论 是 在 你 自己 的 软件 中 还 是 在 它 运 行 的 基础 设施 上 , Python 软件 既 能 实时 看 到 你 
的 系统 运行 情况 ， 又 能 看 到 系统 的 历史 运行 情况 ， 真 的 很 强大 。 我 们 使 用 Graphite 
和 collectd、statsq 一 起 来 画 出 运行 状况 的 漂亮 图 表 。 这 和 带 给 我 们 一 种 观察 趋 
势 的 方法 ， 并 反 漳 分 析 问 题 来 找到 根本 原因 。 尽 管 我 们 还 没有 设法 实现 , 但 是 当 你 
具有 超出 你 所 能 跟踪 的 度量 指标 时 ，Etsy 的 Skyline 作为 一 种 观察 异常 的 方法 看 起 
来 很 巧妙 。 另 一 种 有 用 的 工具 就 是 Sentry, 一 个 针对 事件 日 志 的 大 系统 ， 并 且 跟 踪 
了 集群 中 的 机 器 所 产生 的 异常 。 


部 署 可 能 是 痛苦 的 ， 无 论 你 用 什么 来 做 。 我 们 已 经 是 Puppet、Ansible 和 Salt 的 用 
户 。 它 们 各 有 优 缺 点 ， 但 是 没有 一 个 让 一 个 复杂 的 部 署 问题 变 得 魔法 般 的 顺利 。 
为 了 维持 我 们 一 些 系 统 的 高 可 用 性 ， 我 们 跨 地 理 运 行 了 多 个 分 布 式 的 基础 设施 集 
群 , 让 一 个 系统 保持 活跃 , 而 其 他 的 作为 热 备份 , 通过 更 新 到 具有 低 存活 期 (TTL) 
的 DNS 来 完成 切换 。 显 然 那 不 总 是 直截了当 的 ， 尤 其 是 当 你 对 数据 的 一 致 性 有 强 
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约束 时 。 幸亏 我 们 没有 太 受 影响 ， 从 而 使 方法 相对 直截了当 。 它 也 提供 给 我 们 一 种 
相对 安全 的 部 署 策略 ， 即 更 新 我 们 的 其 中 一 个 备份 集群 ， 并 在 推动 那个 集群 活跃 和 
更 新 其 他 集群 之 前 执行 测试 。 


也 和 所 有 人 一 样 ， 我 们 真 的 受 使 用 Docker 所 能 做 的 事情 的 前 景 所 鼓舞 。 也 和 很 多 
其 他 人 一 样 , 我 们 还 仅仅 处 在 摸索 阶段 来 探索 怎样 来 使 它 成 为 我 们 部 署 过 程 的 一 部 
分 。 无 论 如 何 ， 获 得 与 它 的 所 有 二 进 制 依赖 以 及 所 包含 的 系统 库 一 起 以 轻 量 级 和 可 
重 现 的 方式 快速 部 署 我 们 软件 的 能 力 看 起 来 已 经 近 在 眼前 了 。 


在 服务 器 层面 ， 有 完整 的 一 套 例 行 工 具 来 让 生活 变 得 轻松 。Monit 为 你 做 监控 很 强 
大 。Upstart 和 supervisord 降低 了 运行 服务 的 困难 。 如 果 你 没有 使 用 一 个 完整 
的 Graphite 和 collectd 设置 ，Munin 对 于 一 些 快速 而 简单 的 系统 级 的 图 表 是 有 
用 的 。Corosync / Pacemaker 可 能 对 于 跨 集群 节点 运行 服务 是 一 个 良好 的 解决 方案 
(例如 ， 你 有 一 些 需要 运行 在 某 处 的 服务 ， 而 不 是 运行 在 所 有 地 方 )。 


我 已 尝试 过 在 这 里 不 仅 是 列举 出 时 泼 的 术语 , 而 且 要 向 你 指出 我 们 每 天 正 使 用 的 软 
件 , 真正 对 我 们 能 够 有 效 部 署 并 运行 系统 产生 重大 影响 。 如果 你 已 经 全 部 听 说 过 它 
们 ,我 确信 你 肯定 有 一 套 完整 的 其 他 有 用 的 容 门 要 分 享 ,所 以 请 给 我 写 信 分 享 几 点 。 
如 果 不 是 ， 就 去 签 出 它们 一 一 希望 其 中 一 些 对 你 有 用 ， 就 像 对 我 们 有 用 一 样 。 


12.5 PyPy 促成 了 成 功 的 Web 和 数据 处 理 系统 


Marko Tasic ( https://github.com/mtasic85) 


PyPy 是 Python 的 一 种 实现 。 因 为 我 早期 有 使 用 PyPy 的 丰富 经 验 ， 所 以 我 选择 在 
适用 的 每 处 地 方 都 使 用 它 。 我 从 速度 关键 的 小 规模 玩具 类 型 的 项 目 一 直到 中 等 规模 
的 项 目 都 使 用 过 它 。 我 使 用 它 的 第 一 个 项 目 是 实现 一 个 协议 , 我们 所 实现 的 协议 是 
Modbus 和 DNP3。 之 后 ， 我 使 用 它 来 实现 一 个 压缩 算法 ， 每 一 个 人 都 惊 许 于 它 的 
速度 。 如 果 我 回忆 准确 的 话 ， 我 使 用 的 在 产品 中 的 第 一 个 版 本 是 PyPy 1.2， 具 有 开 
箱 即 用 的 IT。 到 PyPy 的 1.4 版 本 之 前 , 我 们 确信 它 就 是 我 们 所 有 项 目的 未 来 ， 
为 许多 错误 得 到 了 修复 ， 而 且 速 度 增 加 得 越 来 越 快 。 我 们 好 奇 于 只 是 通过 把 PyPy 
更 新 到 下 个 版 本 ， 简 单 的 案例 就 加 快 了 2 到 3 倍 。 


我 将 解释 两 个 独立 但 是 深度 相关 的 项 目 , 彼此 共享 了 90% 相 同 的 代码 , 但 为 了 让 解 
释 易 于 接受 ， 我 把 它们 俩 统称 为 “项 目 ”。 


该 项 目 就 是 创建 一 个 系统 来 收集 报纸 、 杂 志和 博客 ， 在 需要 的 地 方 应 用 OCR ( 光 
学 字符 识别 )， 把 它们 进行 分 类 、 翻 译 ， 应 用 情感 分 析 ， 分 析 文 档 结构 ， 并 为 以 后 
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的 搜索 来 做 索引 。 用 户 能 够 以 任意 一 种 支持 的 语言 来 搜索 关键 词 并 检索 出 和 索引 文 
档 相关 的 信息 。 搜 索 是 跨 语 言 的 ,这样 用 户 就 可 以 用 英语 来 写 并 以 法 语 来 得 到 结果 。 
此 外 , 用 户 将 从 文档 页 上 接收 到 高 亮 的 文章 和 关键 词 , 具有 关于 空间 占用 和 出 版 价 
格 方面 的 信息 。 更 高 级 的 使 用 场景 将 是 报告 生成 ， 用 户 能 够 看 到 结果 的 制 表 视 图 ， 
是 有 关于 任何 特定 的 公司 在 被 监控 的 报纸 、 杂 志和 博客 上 所 做 广告 花费 的 具体 信 
息 。 除了 广告 之 外 , 也 能 “猜测 ”一 篇 文章 是 付费 的 还 是 客观 的 ,并 决定 它 的 基调 。 


12.5.1 先决 条 件 

显然 , PyPy 是 我 们 所 偏爱 的 Python 实现 。 我 们 使 用 Cassendra 和 Elasticsearch 作为 
数据 库 。 缓存 服务 器 使 用 了 Redis。 我 们 使 用 Celery 作为 一 个 分 布 式 的 任务 队列 ( 工 
作者 )， 使 用 RabbitMQ 作为 它 的 经 纪 人 。 结 果 保 存在 Redis 的 后 端 。 以 后 ，Celery 
更 加 专门 地 使 用 Redis 来 作 经 纪 人 和 后 端 。 所 使 用 的 OCR 引擎 是 Tesseract。 所 用 
的 语言 翻译 引 敬 和 服务 器 是 Moses。 我 们 使 用 Scrapy 来 仆 取 网 站 。 对 于 整个 系统 
的 分 布 式 锁 , 我 们 使 用 了 一 个 ZooKeeper 服务 器 , 但 是 一 开始 使 用 的 是 Redis。Web 
应 用 基于 优秀 的 Flask Web 框 架 以 及 它 的 许多 扩展 ,例如 Flask-Login、 Flask-Principle 
等 。Flask 应 用 由 每 台 Web 服务 器 上 的 Gunicorn 和 Tornado 所 承载 ，nginx 用 来 作 
为 Web 服务 器 的 反 向 代理 。 代 码 的 其 余部 分 由 我 们 自己 来 号 , 是 运行 在 PyPy 之 上 
的 纯粹 的 Python 。 


整个 项 目 搭建 于 公司 内 部 的 OpenStack 私有 云 上 , 并 取决 于 需求 ,执行 了 100 到 1000 
个 ArchLinux 实例 ,能 够 在 线 动态 调整 。 整 个 系统 每 6 到 12 个 月 消耗 200 TB 的 存 
储 ， 取决 于 所 提 到 的 需求 。 除 了 OCR 和 翻译 之 外 ， 所 有 的 处 理由 我 们 的 Python 代 
码 来 完成 。 


12.5.2 ”数据 库 

我 们 为 Cassandra、Elasticsearch 和 Redis 开发 了 具有 统一 模型 的 类 的 Python 包 。 它 
是 一 个 简单 的 ORM (对 象 关系 映射 ) ， 在 许多 条 记录 要 从 数据 库 来 获取 的 情况 下 ， 
把 每 样 东西 映射 成 一 个 字典 或 者 字典 的 列表 。 


既然 Cassandra 1.2 不 支持 在 索引 上 做 复杂 的 查询 ， 我 们 用 类 似 join 的 查询 来 支持 
它们 。 无 论 如 何 ， 我 们 允许 小 规模 数据 集 上 的 复杂 查询 (直到 4GB 为 止 ) ， 因 为 许 
多 东西 必须 要 放 在 内 存 中 处 理 。PyPy 运行 在 那些 CPython 甚至 无 法 把 数据 装载 进 
内 存 的 场景 下 ， 多 亏 了 它 应 用 同 构 列 表 的 策略 ， 从 而 使 得 它们 在 内 存 中 更 加 紧凑 。 
PyPy 的 另 一 个 好 处 就 是 它 的 JIT 编译 在 发 生 数 据 操 作 或 分 析 的 循环 中 开始 运转 。 

我 们 以 这 样 一 种 方式 来 写 代 码 ， 那 就 是 类 型 在 循环 内 部 保持 静态 ， 因 为 在 那里 JIT 
编译 的 代码 尤其 良好 。 
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Elasticsearch 被 用 来 做 索引 以 及 文档 的 快速 检索 。 当 涉及 查询 复杂 性 时 ， 它 非常 
灵活 ， 这 样 我 们 使 用 它 就 不 会 产生 主要 的 问题 。 我 们 拥有 的 其 中 一 个 问题 和 文档 
更 新 有 关 ， 它 不 是 设计 用 来 快速 修改 文档 的 ， 这 样 我 们 不 得 不 把 那 部 分 迁移 到 
Cassendra。 男 一 个 限制 和 侧面 (facet) 以 及 数据 库 实 例 所 需要 的 内 存 有 关 ， 但 是 
通过 产生 更 多 更 小 的 查询 ， 然 后 手动 操纵 在 Celery 工作 者 中 的 数据 ， 问 题 得 到 了 
解决 。 在 PyPy 和 被 用 来 与 Elasticsearch 服务 器 池 做 交互 的 PyES 库 之 间 没 有 浮现 
出 主要 的 问题 。 




































































12.5.3 Web 应 用 

就 如 上 面 所 提 到 的 那样 ， 我 们 使 用 Flask 框架 以 及 它 的 第 三 方 扩 展 。 初 始 阶 段 ， 我 
们 用 Django 来 开始 所 有 的 工作 ， 但 是 由 于 需求 的 快速 改变 ， 我 们 切换 到 了 Flask。 
这 并 不 意味 着 Flask 比 Django 更 好 ， 它 对 我 们 来 说 只 是 用 Flask 比 用 Django 更 容 
易 来 跟踪 代码 ， 因 为 它 的 项 目 布局 非常 灵活 。Gunicorn 被 用 作 一 个 WSGI (Web 
服务 器 网 关 接 口 ) 的 HITP 服务 器 , 它 的 IO 循环 由 Tornado 来 执行 。 这 允许 我 们 
让 每 个 Web 服务 器 达到 100 个 并 发 连接 。 这 比 所 期 望 的 要 低 ， 因 为 许多 用 户 查询 
可 能 花费 较 长 的 时 间 一 一 用 户 的 请 求 产 生 了 许多 分 析 ， 数 据 以 用 户 交 互 的 方式 来 
返回 。 


初始 阶段 ，Web 应 用 依赖 于 Python 映像 库 (PIL) 来 做 文章 和 单词 的 高 亮 。 我 们 一 
起 使 用 PIL 库 和 PyPy 时 发 生 了 问题 ， 因 为 那 时 PIL 有 许多 内 存 泄 漏 。 接 着 我 们 切 
换 到 了 Pillow， 它 维护 的 频率 更 加 高 。 最 后 ， 我 们 通过 subprocess 模块 写 出 了 与 
GraphicsMagick 做 交互 的 库 。 

































































PyPy 运行 良好 ， 结 果 和 CPython 兼容 。 这 是 因为 通常 Web 应 用 是 IO 密集 型 的 。 
无 论 如 何 ， 随 着 PyPy 中 STM 的 开发 ， 我 们 希望 不 久之 后 就 有 在 多 核实 例 层面 上 
的 可 扩展 的 事件 处 理 。 


12.5.4 OCR 和 翻译 


我 们 为 Tesseract 和 Moses 写 了 纯粹 的 Python 库 , 因为 我 们 在 使 用 依赖 于 CPython 
API 的 扩展 时 发 生 了 问题 。PyPy 在 使 用 CPyExt 时 对 CPython API 具有 良好 的 文 
持 ,， 但 是 我 们 想 要 对 藏 在 表面 下 的 所 发 生 的 事情 具有 更 多 的 控制 力 。 结 果 就 是 ， 
我 们 制作 了 一 个 兼容 PyPy 的 解决 方案 ， 具 有 比 在 CPython 上 运行 稍微 快 一 点 的 
代码 。 它 没有 更 快 的 原因 就 是 大 多 数 处 理发 生 于 Tesseract 和 Moses 的 C/C++ 代码 
中 。 我们 只 能 加 速 输出 处 理 以 及 Python 结构 文档 的 构建 。 在 这 个 阶段 没有 主要 的 
PyPy 兼容 性 问题 。 
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12.5.5 ”任务 分 发 和 工作 者 

Celery 带 给 我 们 在 后 台 运 行 许多 任务 的 力量 。 典 型 的 任务 是 OCR、 翻 译 、 分 析 等。 
所 有 的 事情 都 能 用 Hadoop 的 MapReduce 来 做 , 但 是 我 们 选择 了 Celery， 因 为 我 们 
知道 项 目 需 求 可 能 经 常 变更 。 


我 们 有 大 概 20 个 工作 者 ， 每 个 工作 者 有 10 到 20 个 函数 。 几 乎 所 有 的 函数 都 有 循 
环 , 或 者 有 许多 攀 套 的 循环 。 我 们 小 心地 让 类 型 保持 静态 ， 这 样 JIT 编译 器 就 能 显 
身手 了 。 最 后 的 结果 就 是 以 2 到 5 倍 的 加 速 超过 了 CPython。 我 们 没有 得 到 更 好 的 
速度 提升 的 原因 是 我 们 的 循环 相对 较 小 ， 在 2 万 到 10 万 次 和 迭代 之 间 。 在 有 些 我 们 
必须 在 单词 层面 上 做 分 析 的 情况 下 , 我 们 具有 超过 1 百 万 次 迭代 , 这 就 是 我 们 得 到 
超过 10 倍 的 速度 提升 的 地 方 。 


12.5.6 结论 

PyPy 对 于 每 一 个 依赖 于 可 读 、 可 维护 的 大 型 源码 的 执行 速度 的 纯 Python 项 目 
而 言 是 一 个 优秀 的 选择 。 我 们 发 现 PyPy 也 十 分 稳定 。 我 们 的 所 有 程序 都 是 长 
期 运行 的 ,使 用 静态 和 /或 在 数据 结构 内 部 的 同 构 类 型 ,这 样 JIT 就 能 显 身手 了 。 
当 我 们 在 CPython 上 测试 整体 项 目 时 ， 结 果 并 没有 让 我 们 吃惊 ;我们 用 PyPy 
比 CPython 大 概 具有 2 倍 的 速度 提升 。 在 我 们 的 客户 眼 里 ,这 意味 着 以 相同 的 
价格 得 到 了 2 倍 更 好 的 性 能 。 除 了 PyPy 迄今 为 止 带 给 我 们 的 所 有 好 处 ， 我 们 
希望 它 的 软件 事务 内 存 (STM) 的 实现 将 带 给 我 们 可 扩展 地 来 并 行 执行 Python 
代码 。 


12.6 在 Lanyrd.com 中 的 任务 队列 


Andrew Godwin (lanyrd.com) 


Lanyrd 是 一 家 发 现 社交 协会 的 网 站 一 一 我 们 的 客户 登 人 后 ,我 们 使 用 来 自 社交 网 络 
的 他 们 的 好 友 图 , 以 及 其 他 类 似 于 他 们 的 工作 行业 或 者 地 理 位 置 之 类 的 线索 来 建议 
相关 的 协会 。 


网 站 的 主要 工作 就 是 提取 出 原始 数据 的 精华 , 这 样 我 们 就 能 展现 给 用 户 一 一 尤其 是 
一 个 排序 好 的 协会 列表 。 我 们 必须 要 离线 来 做 ， 因 为 我 们 每 隔 几 天 刷新 推荐 的 协会 
列表 ,也 因为 我 们 遇 到 了 通常 较 慢 的 外 部 API。 我 们 也 为 其 他 花费 较 长 时 间 的 事情 
使 用 Celery 任务 队列 ， 比 如 获取 人 们 所 提供 的 链接 的 缩 略 图 以 及 发 送 电子 邮件 。 
每 天 在 队列 中 通常 有 超过 100 000 个 任务 ， 有 时 会 更 多 。 
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12.6.1 ”Python 在 Lanyrd 中 的 角色 


Lanyrd 从 一 开始 起 就 由 Python 和 Django 来 构建 , 几乎 它 的 每 一 部 分 都 是 用 Python 
来 写 的 一 一 网 站 本 身 ， 离 线 处 理 ， 我 们 的 统计 和 分 析 工 具 ， 我 们 的 移动 后 端 服务 器 
以 及 部 署 系统 。 它 是 一 种 多 用 途 和 成 熟 的 语言 ， 相 当 容 易 快 速 用 它 来 写 代码 ， 最 感 
谢 的 就 是 大 量 可 用 的 库 以 及 语言 良好 的 可 读 性 和 简洁 的 语法 , 这 意味 着 容易 更 新 和 
重 构 ， 并 且 一 开始 也 容易 编写 。 


当 我 们 对 任务 队列 的 需求 发 生 演进 〈 很 早 就 开始 ) 时 ，Celery 任务 队列 已 经 是 一 个 
成 熟 的 项 目 了 ，Lanyrd 的 其 余部 分 已 经 使 用 了 Python， 所 以 它 自然 就 适应 了 。 当 
我 们 规模 变 大 时 ， 有 一 个 需求 要 改变 支撑 它 的 队列 (最 后 用 了 Redis), 但 它 一 般 有 
很 好 的 扩展 性 。 


作为 一 个 初创 公司 , 为 了 取得 进展 , 我 们 不 得 不 欠 下 一 些 已 知 的 技术 债 一 一 这 只 是 
你 不 得 已 做 的 , 当 问 题 可 能 浮现 时 , 只 要 你 知道 它们 是 什么 问题 , 就 不 一 定 是 坏事 。 
Python 在 这 方面 的 灵活 性 非常 棒 , 它 一般 鼓 励 组 件 之 间 的 松 耦 合 , 这 意味 着 发 布 一 
些 “ 足 够 好 ”的 实现 常常 是 容易 的 ， 然 后 将 来 轻易 地 重 构 出 一 个 更 好 的 实现 。 


任何 关键 性 的 东西 , 例如 付款 代码 ， 要 有 完整 的 单元 测试 覆盖 率 , 但 是 对 于 网 站 的 
其 他 部 分 和 任务 队列 流 (尤其 和 显示 相关 的 代码 )， 往 往 前 进 得 太 快 ， 让 单元 测试 
变 得 没有 价值 (它们 太 脆弱 )。 取 而 代 之 的 是 ， 我 们 采用 了 一 个 非常 敏捷 的 方法 ， 
具有 一 个 短 达 2 分 钟 的 部 署 时 间 以 及 优秀 的 错误 追踪 。 如 果 出 现 错误 , 我 们 常常 能 
够 修复 它 ， 并 在 5 分 钟 内 完成 部 署 。 


12.6.2 ”使 任务 队列 变 高 性 能 

任务 队列 的 主要 问题 是 吞吐 量 。 如 果 它 有 任务 积压 , 那么 网 站 继续 工作 但 是 开始 变 
得 有 些 不 可 思议 的 延 时 一 列表 没有 更 新 ,页 面 内 容 是 错 的 ， 电 子 邮 件 几 小 时 都 没 
然而 , 幸运 的 是 , 任务 队列 也 鼓励 非常 具有 扩展 性 的 设计 ， 只 要 你 的 消息 中 心服 务 
器 〈 在 我 们 的 案例 中 是 Redis) 能 够 处 理 任务 请 求 和 响应 的 消息 开销 ， 对 于 实际 的 
处 理 而 言 ， 你 可 以 运转 任意 数量 的 守护 工作 进程 来 应 对 负载 。 


12.6.3 报告、 监控 、 调 试 和 部 署 

我 们 有 跟踪 队列 长 度 的 监控 , 如 果 它 开始 变 长 , 我 们 只 要 部 署 另 一 台 有 更 多 守护 工 
作 进程 的 服务 器 即 可 。Celery 让 这 样 做 变 得 很 容易 。 我 们 的 部 署 系统 有 钩子 ， 通 过 
它 ,我 们 能 够 在 盒子 上 增加 工作 线程 的 数量 (如 果 我 们 的 CPU 利用 率 不 是 最 优 的 )， 
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并 且 能 够 在 30 分 钟 内 轻易 地 把 一 台 全 新 的 服务 器 转变 成 一 个 Celery 工作 者 。 它 和 























如 果 你 的 任务 队列 突然 得 到 一 个 负载 高 





降 到 最 低 水 











下 来 。 


的 网 站 响应 时 间 不 一 样 











条 ,你 有 一 些 时 间 来 实现 一 个 修复 ， 如果 你 留 下 了 足够 的 元 余 容 量 , 通常 它 能 平滑 


12.6.4 ”对 开发 者 同行 的 建议 

我 的 主要 建议 将 会 是 尽 可 能 快速 地 把 尽量 多 的 任务 塞 到 任务 队列 中 去 (或 者 一 个 类 
似 的 松 耦 合 的 架构 )。 它 在 初始 阶段 要 花费 一 些 工程 方面 的 努力 ， 但 是 当 你 规模 扩 
大 时 , 曾经 要 花 半 秒 时 间 做 的 操作 可 能 增 大 到 半分 钟 才能 完成 , 你 会 高 兴 于 它们 没 




















有 阻塞 你 的 主演 染 线 程 。 一 旦 你 走 到 了 这 一 步 , 要 确保 你 紧密 监控 你 的 平均 队列 延 





迟 〈 一 个 任务 从 提交 到 完成 需要 花 多 和 久 ) ， 并 且 确 保 当 你 的 负载 增加 时 ， 还 有 一 些 


见 余 的 容量 。 


最 后 , 要 注意 为 多 个 不 同 优先 级 的 任务 配置 多 个 任务 队列 是 有 意义 的 。 发 送 电 子 邮 






































件 不 具有 很 高 的 优先 级 ， 人 们 习惯 于 电子 邮件 过 几 分 钟 才 到 达 。 无 论 如 何 , 如 果 你 
在 后 台 演 染 纵 略图 并 且 当 你 正在 做 时 , 显示 一 个 旋转 图 标 , 你 想 要 让 这 种 工作 成 为 
































高 优先 级 ， 因 为 如 果 不 是 这 样 的 话 ， 你 会 产生 糟糕 的 用 户 体验 。 你 不 想 在 接 下 来 的 
20 分 钟 内 在 你 的 网 站 上 让 100000 人 的 邮件 广告 全 都 延迟 显示 缩 略 图 。 
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Ian Ozsvald 是 一 个 数据 科学 家 , 并 且 在 ModelInsight.io 担任 Python 老师 , 具有 超 
过 10 年 的 Python 经 验 。 他 已 经 在 PyCon 和 PyData 大 会 上 讲课 超过 10 年 ， 并 且 
在 伦敦 从 事 人 工 智能 和 高 性 能 计算 领域 的 咨询 工作 超过 10 年 时 间 。Ian 的 背景 涉 
及 Python 和 C++， 结合 了 Linux 和 Windows 开发 、 存 储 系 统 、 许 多 自然 语言 处 
理 和 文本 处 理 ， 机 器 学 习 以 及 数据 可 视 化 。 他 在 许多 年 前 也 共同 创建 了 专注 于 
Python 的 视频 学 习 网 站 ShowMeDo.com。 
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封面 简介 


本 书 封 面 上 的 动物 是 予 头 凤 蛇 。 在 法 语 字面 上 是 “ 钢 巴 ”的 意思 ,该 名 字 为 一 些 主 
要 发 现 于 马 提 尼克 品 上 的 蛇 的 种 类 所 保留 。 它 也 可 能 用 来 指 其 他 的 矛头 蜡 蛇 种 类 ， 
比如 圣 卢 西亚 矛头 电 蛇 、 普 通 矛 头晕 电 ， 以 及 三 色 矛 头 电 蛇 。 所 有 这 些 种 类 都 属于 
日 蛇 ， 所 以 就 以 两 个 位 于 眼睛 和 鼻孔 之 间 的 看 起 来 像 斑点 的 热 感应 器 官 来 命名 。 


由 于 大 部 分 三 色 矛 头 蜡 蛇 和 普通 矛头 晶 蛇 能 导致 咬 伤 后 致死 ， 所 以 在 美洲 矛头 电 
属 种 的 蛇 比 任何 其 他 的 属 种 要 为 更 多 人 的 死亡 而 负责 。 在 南美 咖啡 和 香 葛 种 植 场 
的 工人 惧怕 被 意图 捕获 路 此 类 动物 当 点 心 的 普通 矛头 昌 咬 一 口 。 当 你 在 中 美洲 的 
河流 岸 边 沐浴 在 阳光 下 而 不 堪 忍 受 寂 寞 的 生活 时 ， 要 当心 据说 脾气 更 暴躁 的 三 色 
矛头 昌 蛇 ， 它 是 一 种 危险 。 

O’Reilly 封面 上 的 许多 动物 是 濒危 物种 ， 它 们 对 这 个 世界 是 重要 的 。 为 了 了 解 到 更 
多 关于 你 该 如 何 去 帮 助 它们 的 信息 ， 请 去 animals.oreilly.com。 


封面 图 片 来 自 于 Wood 的 动画 创造 。 封 面 字体 是 URW 打字 机 字体 和 Guardian Sans 
字体 ， 文 本 字体 是 Adobe Minion Pro 字体 ， 标 题 是 Adobe Myriad Condensed 字体 ， 
代码 字体 是 Dalton Maag 的 Ubuntu Mono 字体 。 
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四 持 步 什 区 
人 民 邮 电 出 版 社 


www.epubit.com.cn 


欢迎 来 到 异步 社区 ! 





异步 社区 的 来 历 
异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 ce 
社 旗下 IT 专业 图 书 旗舰 社区 ， 于 2015 年 8 月 上 线 新 年 新 却 旬 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余年 的 IT 。 
专业 优质 出 版 资源 和 编辑 策划 团队 ， 打 造 传统 出 版 | 玩意 sa 四 ss 人 
与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 结合 、 
传统 印刷 与 POD 按 需 印刷 结合 的 出 版 平台 ， 提 供 最 
新 技术 资讯 ， 为 作者 和 读者 打造 交流 互动 的 平台 。 
































社区 里 都 有 什么 ? 


购 居 图 书 

我 们 出 版 的 图 书 涵盖 主流 IT 技 术 , 在 编程 语言 ` Web 技术 、 数 据 科 学 等 领域 有 众多 经 典 畅销 图 书 。 
社区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 
定期 发 布 新 书 书 讯 。 























下 载 资源 


社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代 码 。 
另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 可 以 免费 下 载 。 














与 作 译 者 互动 

很 多 图 书 的 作 译 者 已 经 入 驻 社区 , 您 可 以 关注 他 们 , 咨询 技术 问题 可 以 阅读 不 断 更 新 的 技术 文章 ， 
听 作 译 者 和 编辑 畅 聊 好 书 背后 有 趣 的 故事 ;还 可 以 参与 社区 的 作者 访谈 栏目 ， 向 您 关注 的 作者 提出 采 
访 题目 。 

















灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购 买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 邮 电 出 版 社 书库 发 货 ， 电 子 
书 提 供 多 种 阅读 格式 。 

对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 间 买 到 心仪 的 新 书 。 

用 户 账户 中 的 积分 可 以 用 于 购书 优惠 。100 积分 =1 元 ， 购 买 图 书 时 ,在 。 : 
里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 
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特别 优惠 
购买 本 书 的 读者 专 享 异步 社区 购书 优惠 券 。 


使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购书 时 输入 57AWG ， 然 后 点 击 “使 
用 优惠 码 ”， 即 可 享受 电子 书 8 折 优惠 〈 本 优惠 券 只 可 使 用 一 次 )。 














纸 电 图 书 组 合 购 头 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 
价格 优惠 ， 一 次 购买 ， 多 种 阅读 选择 。 






































社区 里 还 可 以 做 什么 ? 


提交 勘误 

















您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 积分 。 热 心 勘误 的 读者 还 有 
机 会 参与 书稿 的 审 校 和 翻译 工作 。 


写作 


社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写 作 的 您 可 以 在 此 一 试 身手 ， 在 社区 里 分 享 您 的 技 
术 心 得 和 读书 体会 ， 更 可 以 体验 自 出 版 的 乐趣 ， 轻 松 实现 出 版 的 梦想 。 
如 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 享 特色 服务 。 


会 议 活 动 早 知 道 


您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 





























加 入 异步 


扫描 任意 二 维 码 都 能 找到 我 们 : 











异步 社区 。”。” 微 信 服务 号 。 。” 微 信 订 阅 号 。 。 官方 微 博 。 QQ 群 436746675 
社区 网 址 : www.epubit.com.cn 

官方 微 信 : 异步 社区 
言 万 微 博 ，@ 人 邮 异 步 社 区 ，@ 人 民 邮 电 出 版 社 - 信息 技术 分 社 


投稿 & 咨询 : contact@epubit.com.cn 
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O'REILLY 





yb 口 
Python 高 性 能 编程 
Python 代码 仅仅 能 够 正确 运行 还 不 够 ， 你 需要 让 它 运 行 得 更 快 。 通 过 探 
索 设计 决策 背后 的 基础 理论 ， ea ea 
现 。 你 将 学 习 如 何 找 到 性 能 瓶 诺 ， 以 及 如 何在 大 数据 量 的 程序 中 显著 加 
快 代码 。 


如 何 利 用 多 核 架 构 或 集群 的 优点 ? 如何 构建 一 个 在 不 损失 可 靠 性 的 情况 
下 具备 可 伸缩 性 的 系统 ? 有 经 验 的 Python 程 序 员 将 学 到 针对 这 些 问题 或 
者 其 他 问题 的 具体 解决 方案 ， 以 及 来 自 那些 在 社交 媒体 分 析 、 产 品 化 机 
器 学 习 和 其 他 场景 下 使 用 高 性 能 Python 编程 的 公司 的 成 功 案 例 。 





























通过 阅读 本 书 ， 你 将 能 够 : 

国 更 好 地 掌握 numpy、Cython 和 剖析 器 ; 

四 了 解 Python 如 何 抽象 化 底层 的 计算 机 架构 ， 

加 使 用 剖析 手段 来 寻找 CPU 时 间 和 内 存 使 用 的 瓶颈 ， 
目 通过 选择 合适 的 数据 结构 来 编写 高 效 的 程序 

目 加 速 和 矩 阵 和 矢量 计算 ， 

目 使 用 工具 把 Python 编译 成 机 器 代码 ， 

目 管理 并 发 的 多 /0O 和 计算 操作 ， 

加 把 多 进程 代码 转换 到 在 本 地 或 者 远程 集群 上 运行 ， 
是 用 更 少 的 内 存 解 决 大 型 问题 。 


“尽管 Python 在 学 术 和 工业 领 
域 很 流行 ， 但 人 们 也 经 常 由 
eta 
。 本 书 通过 全 面 介绍 改善 优化 
ee 性 的 
策略 ， 从 而 消除 人 们 的 这 种 误 
一 一 JakeVanderPlas 

华盛顿 大 学 








Micha Gorelick 在 bitly 公 司 从 事 与 
数据 打交道 的 工作 ， 并 负责 建立 
了 快速 前 进 实验 室 (Fast Forward 
Labs) ， 研 究 从 机 器 学 习 到 高 性 
领域 的 问题 。 

















GE 、 洁 
用 流 / 


lan Ozsvald 是 Modelinsight.io 的 
数据 科学 家 和 教师 ， 有 着 超过 十 
年 的 Python 经 验 。 他 在 PyCon 和 
PyData 会 议 上 教授 Python 编程 ， 
这 几 年 一 直 在 英国 从 事 关 于 数据 
科学 和 高 性 能 计算 方面 的 咨询 工 
作 
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